兔八哥是ATT使用神经网络版定制声音
您是否曾经希望能够跳进您最喜欢的卡通片中并与像兔八哥这样的屏幕角色互动?
欢迎来到 AT&T 达拉斯体验店,这里有真人大小的高清兔八哥会叫出你的名字来迎接你,并告诉你他需要你的帮助来找到藏在店里的一些金胡萝卜。 兔八哥可以按照您的指示在商店里寻找胡萝卜并与您实时聊天[1],这一切都得益于基于 Azure AI 技术创建的 5G、增强现实 (AR)、人工智能和神经网络定制语音。
兔八哥之所以能够自然流畅地与人交谈,得益于 Azure 认知服务中语音服务 [2] 的神经网络文本转语音功能。 目前,该功能已在正式版中上线。
微软Azure AI平台公司副总裁Eric Boyd[3]表示:“我们从客户那里听说,他们喜欢与用户进行语音交流的想法。多年来,语音服务产生的声音一直让人感觉非常机械。而神经语音技术的应用将带来巨大的飞跃朗读女语音库,让声音听起来更加真实、自然。”
对于 AT&T 来说,身临其境的兔八哥对话体验不仅可以娱乐客户,而且可以提供展示其先进 5G 蜂窝网络功能的机会。 借助 AT&T 的 5G 蜂窝网络,兔八哥可以快速出现在高清图像中,并在商店内无缝移动。
AT&T 5G 产品和移动创新副总裁 Jay Cary 表示:“我们正在努力向消费者证明 5G 网络与众不同,并且具有比 4G 网络更好的性能。5G 网络拥有巨大的计算能力、更快更高的传输速率以及更低的延迟。与兔八哥交谈的体验以惊人的方式最大限度地发挥 5G 网络和技术的潜力。”
兔八哥是 AT&T 使用神经网络版本的自定义语音赋予生命的第一个动画角色,但它显然不会是最后一个。 当谈到未来的各种可能性时,卡里难掩兴奋:未来,卡通人物可能会从麦片盒子里走出来。 他们可以给你讲故事,和你一起看动画片,甚至呆在家里陪你。 随便走走。
他说:“我们真的很喜欢这个将物理环境与虚拟环境融合的想法!”
卡里表示,为了打造定制化的声音,AT&T特意邀请了兔八哥授权配音演员来到工作室,在微软团队的指导下录制了约2000个短语和台词。
然后,华纳兄弟团队(卡里称他们为“兔八哥专家”)与微软的团队合作,反复研究和处理这些声音,以确保它们准确地反映兔八哥的个性和讲话。
卡里说:“我们希望能够在现实世界中真实地重现兔八哥的感觉。 兔八哥和顾客的对话应该像和朋友自然、真实的对话一样,给人一种非常真实的感觉。 情怀。”
虚拟透明
虽然与兔八哥的对话可以给人一种真实的感觉,但大家都知道这不是真的——因为兔八哥本身就是一个虚构的人物。 这是一个非常重要的区别,也是微软在技术应用上慎重对待的一个方面。 这也是神经网络版的自定义声音支持有限的一个关键原因,感兴趣的客户在使用该技术之前必须先提交申请并获得微软的批准。 “正式版”意味着该技术已经准备好商用,可以在更多Azure云区域使用,但不向公众开放。
神经网络自定义声音大多使用虚构人物的声音,但有时客户可能想使用真人的声音,例如作者阅读自己的书的声音。 即使在这种情况下,重要的是要提醒人们,这里使用的声音是合成声音,正是考虑到这一点,微软在合同中纳入了披露要求。
Azure AI 认知服务的 AI 负责人 Sarah Bird 表示:“我们要求客户以用户可感知的方式明确披露这是一个合成语音,或者如果上下文不清楚的话。 合成声音不得在术语中隐藏相关披露。”
该公司的长期品牌大使 Flo 是另一个使用神经文本转语音技术赋予生命的虚构声音。
▲ 为了让 Flo 对话机器人能够进行语音对话,该公司使用神经网络版本的自定义语音创建了合成语音。图片来源:公司
几年前,该公司推出了一款名为 Flo 的对话机器人 [4]。 该机器人性格乐观开朗、俏皮可爱。 这个角色是根据2008年以来在电视广告中扮演的女演员改编的,深受人们的欢迎。 销售员弗洛. 当 开始探索使用语音对话与客户互动时,Flo 是一个自然的选择。
该公司并购体验部技术与创新经理Matt White[5]表示:“我们希望我们的品牌和产品能够随时随地被人们使用,这也是我们非常感兴趣的领域。基于此之后,我们推出了Flo对话机器人,从而不断探索语音和智能对话机器人的各种可能性。”
White表示,该公司已经将Azure AI技术应用在对话机器人中,在此基础上进一步应用神经网络文本转语音服务是自然的选择。
神经版自定义声音的官方版本包括旨在保护服务免遭滥用的技术控制。 当客户提交用于创建自定义语音的录音脚本时,他们必须包含配音演员的声明,表明他们了解该技术并了解客户正在创建自定义语音的神经网络版本。 客户在开始训练语音之前,必须首先使用声纹识别技术来比对录音脚本和训练数据,以确保语音匹配。 微软还在合同中规定,客户必须获得演讲者的许可。
博伊德说:“我们进行了广泛的研究,并与配音行业和该领域的伦理学家合作,制定了一套指南和方法,以确保这项技术能够合规使用。”
责任人承诺
为了防止这项技术被滥用,微软推出了三项措施,分别是:严格定义合同条款、授权客户有限使用以及使用音频文件声纹识别。 Sarah Bird 在微软负责协助制定相关指南,并支持团队以负责任的方式开发 Azure 认知服务[6]相关功能和产品,并促进客户以负责任的方式使用这些功能和产品。
“我们真的希望能够展示这些技术的积极影响,而不会对世界产生任何负面影响,”伯德说。
为了确定潜在风险, 进行了多次影响评估。 对于评估过程中发现的风险,微软将开发相应的功能和流程来解决这些问题。 对于定制声音的神经网络版本,微软采取了以下保障措施:审查每个潜在的用例; 制定“行为准则”; 将说话人确认文件与训练音频文件等进行比对识别
Bird 表示,该团队还在研究一种在合成语音中嵌入数字水印的方法,以表明该内容是使用 Azure 神经版自定义声音创建的。
这些技术和政策特征与微软负责任的人工智能承诺一致[7]。 该承诺包括透明度说明,明确阐明了人工智能系统的目的、功能和限制。
博伊德说:“作为创作者,我们有责任确保这项技术得到负责任的使用。 我们非常重视负责任的人工智能; 这是我们的核心原则之一。 此外,我们还非常谨慎地对待我们的合作伙伴,以确保他们严格遵守这些准则。”
构建自定义语音
那么一系列录制的乐句如何变成听起来高度自然的声音呢?
首先,使用录音脚本来创建音色或音素。 它有点类似于计算机上的字体,包含可以组合成不同单词和句子的字母和字符。
但神经文本转语音的功能远远超出了将声音拼凑成单词的范围。
微软技术研究员、Azure AI认知服务首席技术官黄学东表示:“真正的技术突破在于高效利用深度学习技术处理文本,保证音韵和发音的准确性。其中,音韵是指每个音素的音调和持续时间。我们无缝地结合这些元素来重现说话者的声音。”
▲ 聆听黄学东和他在微软的团队创建的神经网络版本的定制声音演示。 照片来源:Scott/Red Box
深度学习是机器学习的一个技术分支[8]。 在机器学习中,机器被教导以类似于人类的方式学习和分析数据。 “深度”是指神经网络层的深度,其灵感来自于我们对大脑如何工作的理解。 神经网络的各个层协同工作,可以快速执行复杂的任务,将数据序列映射在一起,并从每个任务中学习。 神经网络的层数越多,效果越好。
在神经网络文本转语音技术中,一个神经网络负责将输入文本转换为声学序列,并对声学序列进行编码、解码和预测,而另一个神经网络则负责将声学序列转换为语音。 两个神经网络之间大约有 50 层。
这两个神经网络可以同时预测正确的音韵并合成声音,因此合成的声音听起来更自然。
当然,并不是每个人都需要专门为他们构建的自定义语音。 为此,微软推出了400多种预设神经语音,支持140多种语言选项[9],可以满足客户快速添加阅读功能或让对话机器人说话的需求。
释放人们的创造潜力
伯德说,声音的神经网络定制从根本上来说是一项创造性技术。 这项技术最令她兴奋的是它在教育领域带来的可能性,例如阅读书籍和教授新语言。
微软与中国北京的一家非营利组织合作,利用神经网络版本的定制声音和志愿者团队提供的声音样本生成AI音频内容,并将其捐赠给北京红丹丹视障文化服务中心[10] 。 该中心致力于为盲人和视障群体提供资源。
语言学习公司正在使用自定义语音的神经网络版本将一组卡通人物引入其学习平台,以创建个性化的语言学习服务。 这9位个性鲜明的卡通人物包括冷面少年莉莉、情绪多变的莉莉,以及早熟却过于聪明的少女莉莉。
该公司对这些卡通人物进行了数百次迭代,希望这些人物能够充分体现世界各地用户群体的文化特征,同时延续应用程序主角Duo的视觉风格。
该首席技术官表示:“它已经在全球范围内广泛使用,我们希望更好地增强用户与App之间的联系和互动。”
▲ 使用神经网络版本的自定义语音为语言学习平台上的 9 个新卡通人物注入活力。 图片来源:
从造型和其他设计来看,每个卡通人物都有自己独立的个性,都与吉祥物猫头鹰Duo有着或多或少相同的设计元素:独特的体型、分开的脚、大眼睛和简洁的形象设计。 在大量的角色创建过程中[11],给角色配音是最后一步。
说:“在学习语言时,声音起着非常重要的作用。 作为一款语言学习应用程序,它必须能够为学习者提供真实的声音和口音,在微软神经网络版定制声音的帮助下,我们做到了。”
一直与配音演员合作,为每个卡通人物创建自定义语音库。 去年,它发行了《莉莉》的英语和西班牙语配音版本,以及《莉莉》的英语配音版本。 随后,所有九个卡通人物都将推出英语、西班牙语、法语、德语和日语配音版本。 今年晚些时候,语言学习者还将听到新角色的声音,包括 A 型世界旅行者、忠诚的丈夫和糕点师 Bea。
神经自定义声音还可用于创建不直接模仿现有角色或角色的自定义声音。
“我们能够创建各种复合声音,我们可以将最好的背景样本融合在一起,尝试创建以前从未真正存在过的声音,”伯德说。 “这是一项可以释放人们创造潜力的技术。”
伯德和博伊德认为,定制声音的神经网络版本将有助于促进娱乐、信息、教育等领域更深层次的互动。
“人工智能最令人兴奋的事情是,总是有新的方法来使用这项技术,令人惊讶的是,其中许多方法远远超出了我们最初的设想,”博伊德说。 “See AI 我们对这项技术富有成效的应用感到非常兴奋。”
上图:在 AT&T 达拉斯体验店,顾客可以通过增强现实技术与兔八哥和其他角色互动。 兔八哥使用由神经自定义语音(Azure 认知服务的一项功能)创建的合成语音与客户交谈。 Tunes (TUNES) 以及所有相关角色和元素&™ Bros. , Inc. (s21)。
向上滑动即可阅读
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
阴阳师4月22日更新内容:帝释天上线技能调整,红莲华冕活动来袭[多图],阴阳师4月22日更新的内容有哪些?版本更新
2024-02-01四川电视台经济频道如何培养孩子的学习习惯与方法直播在哪看?直播视频回放地址[多图],2021四川电视台经济频
2024-02-01湖北电视台生活频道如何培养孩子的学习兴趣直播回放在哪看?直播视频回放地址入口[多图],湖北电视台生活频道
2024-02-01