爱盲论坛

标题: 微软晓晓,让温暖的声音浸润您的心, [打印本页]

作者: 私家    时间: 2023-5-25 11:35
标题: 微软晓晓,让温暖的声音浸润您的心,
原文是我从百度搬运过来的,给广大盲人朋友了解一下,等会儿不忙我就发几段语音给你们听听,先给你们看看她们的文章吧,请关注二楼,
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 11:36
视障人士日常阅读主要是通过触摸盲文书籍、听读屏软件、真人有声书籍等途径,不过,目前这几种方式仍存在一些局限性,盲文书“书荒”仍在,且制作成本高、阅读时间长,读屏软件声音较机械,不够自然,而真人录音成本较高…
现在,利用 AI 技术这些问题便可迎刃而解。微软 AI 语音团队一直在和中国最大的视力障碍人群公益组织——红丹丹合作探索 AI 电子有声产品。今年,微软智能语音产品团队对红丹丹旗下心目图书馆的 AI 语音能力进行了升级,利用微软神经网络语音合成技术,通过目前较为成熟的微软人工智能女声“晓晓”,并训练新的神经网络男声,设计出了能够大批量文字转语音的平台,打造出了更温暖、更自然的声音。
近日,微软语音团队、微软红丹丹项目团队和红丹丹公益组织的负责人在接受媒体采访时,介绍了微软 AI 智能女声晓晓在红丹丹项目中的落地最新进展。
微软神经网络语音合成技术打造更温暖的声音
对于只能通过触摸和听觉来感知世界的视障人士而言,阅读是一件很奢望的事情,他们通常是通过触摸凸凹不平的盲点来阅读盲文书籍,触摸完一页书所耗费的时间是健全人的数倍。
为了让这些“黑暗中的行者”拥有更好的阅读体验,微软 AI 语音团队和红丹丹达成了合作,探索研究利用 AI 技术将文字合成电子有声读物。2014 年,微软语音团队帮助视障人士在 Azure 上搭建的云端有声读书馆——心目图书馆诞生。其主要为盲人提供有声书借阅服务,目前该图书馆已经覆盖全国 105 所视障人士学校。
在今年的微软骇客松活动中,微软智能语音 AI 产品团队对心目图书馆的 AI 语音能力进行了升级和技术更迭,打造出了更温暖、更自然的声音。
hongdandan team
2019 微软骇客松“红丹丹”项目成员
微软亚洲互联网工程院人工智能语音组产品总监丁秉公告诉 InfoQ ,该项目主要利用微软神经网络语音合成技术,通过目前较为成熟的微软人工智能女声“晓晓”,并训练新的神经网络男声,设计出了能够大批量文字转语音的平台。
他表示,深度神经网络的升级,是一个 TTS 代际的升级。区别于传统的 TTS,微软晓晓的声音质量、表现力更好,此外它还在声音细节处理上具有优势,譬如阅读中英混合的文本更加自然、清晰,这得益于运用深度神经网络进行混合计算,令这种合成无缝切换。
微软亚洲互联网工程院语音组产品经理、晓晓语音产品负责人刘越颖介绍,微软神经网络语音可针对不同的文章类型提供不同风格的演绎,目前能做到新闻、情感、故事、助理、客服、历史、记录、唱歌的声音。
在文字转语音的合成速度方面,主要分为两种情况,一种是实时合成,在几百毫秒内便能反馈,一般运用在智能对话、助理等场景。另一种是非实时合成场景,如对整本有声书的长文本合成,所需时间约为人工录音音频时长的 1/3。
丁秉公坦言,微软语音技术和盲文书籍在合成过程中最难的技术点在于 AI 对于上下文、篇章的理解上,在这方面,目前人工智能距离还无法做到像人一样的理解能力。谈到解决方案,微软 AI 语音团队主张循序渐进,先定义声音的类型再深入实现不同情绪的自动演绎,目前,微软采用自动标记 + 人工辅助标记的方法来实现不同声音类型的选择。
AI 技术打破有声内容生产壁垒
除触摸盲文书籍外,很多视障人士日常还会通过读屏软件来进行电子阅读,读屏软件的声音较为机械、生硬,难以产生共鸣,长时间聆听很容易乏力,难以集中。经过本次升级后,微软晓晓的声音质量更高、更接近人类朗读的声音,在收听效果上,会让视障人士感觉更亲切、自然。
红丹丹视障文化服务中心执行主任曾鑫表示,一些盲人学校的孩子在听了微软晓晓的声音后普遍做出了正向的反馈:比现在市场上合成的声音自然多了,不像冷冰冰的机器的声音,更像是人读的,更温暖。曾鑫认为,更有“温度”的声音会帮助提高孩子们阅读的兴趣。
相比普通书籍,盲文书籍的数量只是冰山一角。因为制作成本昂贵等问题,市面上的盲文书籍数量较少,“书荒”仍然存在,类别也不够丰富,现借助微软的智能语音技术平台,可以大批量地、自动化地的将电子书转变为有声书,大大减少人力和时间成本,丰富视障人士有声阅读内容的来源。
一本 100 页左右的纸质书籍,译成盲文书籍要 400-500 页,制作成本在 80-100 元左右,成本较高。而通过云端传送,一本有声书做出来之后,只需少量制作成本就可以做到无限量广域传播。
传统有声书制作需要大量真人录音,就算有志愿者献声可以省去录音费用,但录音的精力和时间成本仍无法避免。受到时间、地域、人力等各种成本限制,完成一本有声书的录制最快也要花上三个月,如果追求高质量的精品读物,时间和资金成本则更高,而微软 TTS 最快仅在几百毫秒内便可完成合成,避免了传统制作方式中存在的速度慢、成本高的问题。
“通过 TTS 合成方式,可以 7 X 24 小时无间断合成,输入文字后声音就出来了,只要有文本的内容,就可以源源不断的输出有声内容,这打破了有声内容生产的壁垒“,丁秉公表示。
技术和公益更好结合
在此之前,微软和红丹丹已是十几年的合作伙伴,2006 年,双方展开首次合作,微软一直在为其提供技术和产品支持。在微软大中华区公益事务总监王岭看来,微软一直在利用自己的技术特长和红丹丹相结合,服务视障人群。
接下来,微软还将和红丹丹一起做更多探索,刘越颖透露,团队还将尝试挖掘具有优质声音特质的视障人才,通过微软的技术助其生成有声内容,让他们也能帮助更多人,实现自我价值。
丁秉公表示,在满足视障人群的学习需求之外,未来还会考虑利用智能语音技术做更多尝试,如帮助具有自食其力能力的视障人群更好地工作。他认为微软技术服务的目标群体不只局限在残疾人,而应延伸到更大的有障碍人群。
此次和红丹丹心目图书馆项目的合作是微软公益发起的又一次行动。
王岭表示,公益和技术相结合,微软一直在路上。微软和公益组织的合作,最早可追溯到 1998 年。2011 年 6 月,微软在全球公布了“Tech for good”理念,并在此后积极践行。除了和红丹丹的合作,20 多年来,微软还利用在线客服、机器翻译、人脸识别、云技术、大数据等技术和平台帮助其他社会残障人士解决所需和处理社会棘手问题,代表性的公益项目包括“ AI for Earth”(地球人工智能)计划、微软人脸识别应用 API 寻找儿童、为中国发展研究基金会“智能村小”项目研发智能远程实时教育系统等。
本文转自InfoQ ,作者刘燕
阅读推荐
本帖来自微秘视障助手
作者: 大金熊    时间: 2023-5-25 11:51
楼主这新闻都是三年前的了。
作者: 说书人    时间: 2023-5-25 12:04
回复楼主私家
微软小小,就是Edge用来读网页的音库吧,挺好的,比微软慧慧老阿姨的声音好听多了。如果哪天windows系统音库换成微软小小就好了。
本帖来自微秘iOS端
作者: 说书人    时间: 2023-5-25 12:09
回复地板说书人
听说英文版的讲述人能支持自然语音,也不知啥时能支持中文,然后支持后读屏能不能调用。
本帖来自微秘iOS端
作者: 吃瓜游客    时间: 2023-5-25 12:21
好好好
来自 畅游助手
作者: 说书人    时间: 2023-5-25 12:21
回复地板说书人
我个人觉得,微软慧慧老阿姨的声音是最生硬,冷淡的,苹果这边老太太在念东西时,有问号的地方就会提高语气,而微软慧慧老阿姨就不行。
本帖来自微秘iOS端
作者: 私家    时间: 2023-5-25 13:04
[audiothread=43]http://audio.sky808.com/bbs/www.amhl.vip/20230525/646eec62a8fbc.mp3[/audiothread]
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 13:07
[audiothread=25]http://audio.sky808.com/bbs/www.amhl.vip/20230525/646eed1fb1d50.mp3[/audiothread]
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 13:11
[audiothread=49]http://audio.sky808.com/bbs/www.amhl.vip/20230525/646eedf375609.mp3[/audiothread]
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 13:13
[audiothread=21]http://audio.sky808.com/bbs/www.amhl.vip/20230525/646eee67b65fd.mp3[/audiothread]
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 13:14
[audiothread=35]http://audio.sky808.com/bbs/www.amhl.vip/20230525/646eeeb4a0c28.mp3[/audiothread]
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 13:15
[audiothread=56]http://audio.sky808.com/bbs/www.amhl.vip/20230525/646eeefa1f36b.mp3[/audiothread]
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 13:26
还有两种发音风格,请等着,
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 13:32
[audiothread=45]http://audio.sky808.com/bbs/www.amhl.vip/20230525/646ef2dc932bd.mp3[/audiothread]
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 13:34
标题: 回板凳大金熊
你知道还有人不知道,这回知道的人又多一点啦,
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 13:37
标题: 回地板说书人
还有一种也不错,我去找找发上来,就是不知道那种女生语音库叫什么名字,你们听听看知道不?
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 13:42
[audiothread=25]http://audio.sky808.com/bbs/www.amhl.vip/20230525/646ef540252bb.mp3[/audiothread]
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 13:43
[audiothread=43]http://audio.sky808.com/bbs/www.amhl.vip/20230525/646ef5766ece7.mp3[/audiothread]
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 13:44
[audiothread=31]http://audio.sky808.com/bbs/www.amhl.vip/20230525/646ef5a0f073f.mp3[/audiothread]
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 13:44
[audiothread=14]http://audio.sky808.com/bbs/www.amhl.vip/20230525/646ef5daced02.mp3[/audiothread]
本帖来自微秘安卓版
作者: 说书人    时间: 2023-5-25 13:46
不错,微软小小小姐姐的声音太好听了。
作者: 说书人    时间: 2023-5-25 13:50
但是时四秒的那个刚开始听还以为是什么广告呢。
作者: 私家    时间: 2023-5-25 13:55
标题: 回22楼说书人
是的,我也喜欢,
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 14:03
你们谁知道二十一楼的语音库叫什么名字不?
本帖来自微秘安卓版
作者: 说书人    时间: 2023-5-25 14:11
标题: 回复10楼私家
不错不错!!!!!!!!!!!!!!
本帖来自微秘
作者: 说书人    时间: 2023-5-25 14:13
标题: 回复25楼私家
没听出来,感觉是真人诶!
本帖来自微秘
作者: 说书人    时间: 2023-5-25 14:17
标题: 回复15楼私家
哇!!鸡皮疙瘩都起来了,小小姐姐的声音太嗲了。
本帖来自微秘
作者: 轻声细语    时间: 2023-5-25 14:32
说了这么多也没有一个准确的时间 ,什么时候才有语音库出来安装包
本楼来自 天坦百宝箱
作者: 私家    时间: 2023-5-25 14:35
二七楼,不像真人,
本帖来自微秘视障助手
作者: 私家    时间: 2023-5-25 14:36
二九楼,关注等待吧,
本帖来自微秘视障助手
作者: 河南老邓    时间: 2023-5-25 15:05
这是在哪弄的?
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 15:08
标题: 回32楼河南老邓
微信短视屏搜到的,输入微软晓晓就能找到,抖音也有,
本帖来自微秘安卓版
作者: 说书人    时间: 2023-5-25 15:15
标题: 回复29楼轻声细语
是啊,这也是我想知道的。读屏啥时能用上?
本帖来自微秘
作者: 时光    时间: 2023-5-25 17:14
读屏不能用这语音库,用上了保准不好听
本帖来自微秘
作者: 涣然梦逝    时间: 2023-5-25 17:30
标题: 回8楼私家
手机上能用吗
本帖来自微秘安卓版
作者: 私家    时间: 2023-5-25 17:50
三六楼,只能用来听小说,不能用来做读频语音,
本帖来自微秘视障助手
作者: 薄膜唱片    时间: 2023-5-25 17:57
怎么还有番茄小说的音库啊
本帖来自微秘安卓版
作者: 说书人    时间: 2023-5-25 18:23
标题: 回复38楼薄膜唱片
哪个是?
本帖来自微秘
作者: 银河比邻星    时间: 2023-5-25 18:27
标题: 回复29楼轻声细语
终于有人说到重点了
本帖来自微秘
作者: 贤豪光    时间: 2023-5-25 19:58
回复 1楼 私家
微软里面的这些语音库我都喜欢,男生的云溪。女生的小小。以及云阳云箭。现在打开短视频的时候,24小时都能听到他们的声音。
本楼来自 天坦百宝箱




欢迎光临 爱盲论坛 (http://amhl.vip/) Powered by Discuz! X3.2