你是否曾经希望自己可以跳进最喜欢的动画片里,与兔八哥这样的银幕角色互动?
欢迎光临 AT&T 达拉斯体验店,在这里,真人大小、高清分辨率的兔八哥会亲切地叫出您的名字,和您打招呼,告诉您他需要您帮他找出藏在店内的几根金胡萝卜。兔八哥能够按照您的指示在店内寻找胡萝卜,并与您实时聊天,而这一切都要得益于 5G、增强现实(AR)、人工智能和基于微软 Azure AI 技术创建的神经网络版定制声音(Custom Neural Voice)。
兔八哥之所以能够自然流畅地与人对话,要得益于 Azure 认知服务中语音服务[1]的神经网络文本转语音功能,目前,这项功能已推出正式版本。
微软 Azure AI 平台[2]公司副总裁 Eric Boyd 表示:“我们从客户那里了解到,他们喜欢与用户进行语音沟通这个想法。多年来,语音服务发出的声音一直给人非常机械的感觉。而神经语音技术的应用将带来巨大飞跃,让声音听起来更加逼真自然。”
对于 AT&T 而言,沉浸式的兔八哥对话体验不仅可以愉悦顾客,而且可以借此机会展示其先进的 5G 蜂窝网络功能。在 AT&T 5G 蜂窝网络的助力下,兔八哥得以快速出现在高清画面中,并在店内无缝移动。
AT&T 5G 产品和移动创新副总裁 Jay Cary 表示:“我们正在努力向消费者证明,5G 网络有其与众不同之处,拥有着优于 4G 网络的性能。5G 网络拥有巨大的计算能力、更快的传输速率和更低的时延。与兔八哥对话的体验,以一种令人惊叹的方式,将 5G 网络和技术的潜力发挥到了极致。”
兔八哥是 AT&T 使用神经网络版定制声音(Custom Neural Voice)赋予生命的第一个动画形象,但显然这不会是最后一个。在谈及未来各种可能性时,Cary 不掩兴奋之情:未来,卡通形象可能会从麦片盒子中走出来,他们可以给你讲故事、陪你看动画片,甚至还可以和你一起在家附近转转。
他表示:“我们太喜欢这个将物理环境与虚拟环境相融合的创意了!”
Cary 称,为了打造自定义语音,AT&T 特别邀请兔八哥授权配音演员来到工作室,在微软团队的指导下,录制了约2000条短语和台词。
随后,华纳兄弟团队(Cary 称他们为“兔八哥专家”)与微软团队合作,对这些声音进行反复研究和加工,确保这些声音能够准确反映出兔八哥的个性和语言特点。
Cary 介绍道:“我们希望能够真实地复刻出兔八哥在现实世界中给人的感觉。兔八哥与顾客间的对话应该像是与朋友进行的一场自然、真实的对话,给人以非常逼真的感受。”
虚拟透明度
虽然与兔八哥的对话能够给人以真实的感受,但大家都知道这不是真的——因为兔八哥本身就是一个虚构的形象。这是一个很重要的区别,也是微软在技术应用过程中谨慎对待的一个方面。这同时也是神经网络版定制声音支持有限使用的一个关键原因——感兴趣的客户必须首先递交申请,在获得微软批准后方可使用该技术。“正式版本”指这项技术已经准备好商业化使用,可用于更多的 Azure 云区域,但并不对公众开放。
神经网络版定制声音大多使用虚构形象的声音,但有时,客户可能想要使用真实人物的声音,例如使用某位作家的声音来阅读他/她自己的书。即使在这种情况下,也必须提醒人们这里使用的声音是合成的声音,正是基于这样的考虑,微软在合同中加入了披露要求。
Azure AI 认知服务负责任的 AI 负责人 Sarah Bird 表示:“我们要求客户明确披露这是一种合成语音,或者如果上下文表述不明时,要求客户必须以用户可感知的方式明确披露这是一种合成声音,不得将相关披露内容隐藏于条款之中。”
PROGressive Insurance 公司一直以来使用的品牌形象代言人 Flo,是借助神经网络文本转语音技术获得生命的另一个虚构声音。
▲ 为了让 Flo 对话机器人能够进行语音对话,Progressive Insurance 公司使用神经网络版定制声音创建了一个合成语音。图片来源:Progressive Insurance 公司
几年前,Progressive Insurance 公司在Facebook Messenger 推出了一款 Flo 对话机器人[3],这款机器人个性乐观开朗、俏皮可爱,而这个角色的原型正是2008年以来女演员Stephanie Courtney 在电视广告中塑造的、深受人们喜爱的销售人员 Flo。前进保险公司在开始探索使用语音对话方式与客户互动时,Flo 自然而然成为首选。
Progressive Insurance 公司并购体验部门技术和创新经理 Matt White[4]表示: “我们希望自己的品牌和产品能够随时随地为人们所用,这也是我们非常感兴趣的一个领域。基于此,我们在 Facebook Messenger 推出了 Flo 对话机器人,并由此不断探索语音和智能对话机器人的各种可能性。”
White表示,Progressive Insurance 公司已经在对话机器人中应用了 Azure AI 技术,在此基础上进一步应用神经网络文本转语音服务也是顺理成章的选择。
神经网络版定制声音的正式版本中包含技术控件,旨在防止该服务遭到滥用。客户在提交创建自定义语音使用的录音脚本时,必须随附配音人员的声明,声明其已知晓该技术,了解客户正在制作神经网络版定制声音。在客户开始训练语音之前,必须首先使用声纹识别技术对录音脚本和训练数据进行比较,以确保语音的匹配度。微软还在合同中规定,客户必须获得发音人的许可。
Boyd 表示: “我们开展了大量研究,并与配音行业及领域内伦理学家进行了深入交流,最终形成了一套准则和方法,以确保该技术能够得到合规应用。”
负责人承诺
为防止这项技术被滥用,微软推出了三项举措,分别是:严格定义合同条款、授权客户有限使用、使用音频文件声纹识别。Sarah Bird 在微软负责协助制定相关准则,并支持团队以负责任的方式研发 Azure 认知服务[5]相关功能和产品,并推动客户以负责任的方式使用这些功能和产品。
Bird 表示:“我们非常地希望能够在展示这些技术带来的积极影响的同时,确保其不会给世界造成任何不良影响。”
为确定潜在风险,微软进行了多次影响评估。对于评估过程中确定的风险,微软会开发相应的功能和流程来解决这些问题。对于神经网络版定制声音,微软采取了如下保障措施:对每个潜在用例进行审查;制定《行为准则》;将发音人确认文件与训练音频文件进行比较识别等。
Bird 表示,团队还在研究一种在合成语音中嵌入数字水印的方法,以表明该内容采用 Azure 神经网络版定制声音创建。
这些技术和政策性功能与微软负责任的 AI 承诺[6]相契合。承诺中包含透明度须知,其中清晰地阐明了 AI 系统的目的、功能和限制等。
Boyd 表示:“作为创造者,我们有责任确保这项技术的负责任使用。我们非常重视负责任的 AI;这是我们的一项核心原则。此外,我们也在非常谨慎地对待合作伙伴,以确保他们能够严格遵守各项指导方针。”
构建自定义语音
那么,一系列录制好的短语是如何成为一个高度自然的声音的呢?
首先,使用录音脚本来创建音色,或称音素。它有点类似于电脑上的字体,包含字母和字符,你可以将它们组合成不同的单词和句子。
但是,神经文本到语音的功能远远超出了将声音拼凑成单词的范围。
微软技术研究员、Azure AI 认知服务首席技术官黄学东表示:“真正的技术突破在于高效利用深度学习技术来处理文本,以确保音韵和发音的准确性。其中,音韵指每个音素的音调和时长。我们将这些元素无缝地结合在一起,就能够重现发音人的声音。”
▲ 聆听由黄学东及其率领的微软团队创建的神经网络版定制声音演示。图片来源:Scott Eklund/Red Box Pictures
深度学习是机器学习(点击查看详情:What is machine learning? | Microsoft Azure)的一个技术分支。在机器学习中,机器被教导以类似于人类的方式进行学习和数据分析。“深度”指神经网络层的深度,灵感源自我们对大脑工作原理的了解。神经网络各层协同工作,可快速执行复杂的任务,将数据序列映射在一起,并从每项任务中进行学习。神经网络的层数越多,效果也越好。
在神经网络文本转语音技术中,一个神经网络负责将输入文本转换为声学序列,编码、解码和预测音韵,而另一个神经网络则负责将该声学序列转换为语音。两个神经网络之间大约有50层。
这两个神经网络可以同时预测正确的音韵并合成声音,因此,合成后的声音听起来更加自然。
当然,并不是所有人都需要专门为其打造自定义语音。为此,微软推出了400多种预置神经语音,支持140多种语言选择[8],可满足客户快速添加朗读功能或使对话机器人发声的需求。
释放人们的创造潜能
Bird 表示,神经网络版定制声音从根本上而言是一项创造性的技术。这项技术最令她感到振奋的是其在教育领域开创的各项可能,例如阅读书籍、教授一门新的语言等。
微软与中国北京一家非营利性组织合作,使用神经网络版定制声音和志愿者团队提供的声音样本,生成了 AI 音频内容,并将其捐赠给北京红丹丹视障文化服务中心[9],该中心致力于为盲人和视障群体提供资源。
语言学习公司 Duolingo 正在使用神经网络版定制声音,在其学习平台中引入一组卡通角色,打造个性化语言学习服务。这9个各具特色的卡通角色包括 Lily ——一个情绪多变的冷面少年,以及 Junior ——一个聪明过头的早熟少年。
Duolingo 公司对这些卡通角色进行了数百次迭代,希望这些角色能够在延续 App 主角 Duo 的视觉风格的同时,充分反映全球各地用户群的文化特色。
Duolingo 首席技术官 Severin Hacker 表示:“ Duolingo 在全球范围内得到了广泛的应用,我们希望能够更好地增进用户与 App 间的联系和互动。”
▲ Duolingo 使用神经网络版定制声音为语言学习平台上的9个新卡通角色注入活力。图片来源:Duolingo
在形态和其他设计方面,每个卡通角色都有其独立的个性,并且都或多或少地拥有与 Duolingo 吉祥物猫头鹰 Duo 相同的设计元素:独特的体型、分立的双脚、大眼睛和简单的形象设计。在大量的角色创造过程中,赋予角色声音是最后一环。
Hacker 表示:“在学习一门语言时,语音具有非常重要的作用。Duolingo 作为一款语言学习 App,必须能够为学习者提供真实的声音和口音氛围,而在微软神经网络版定制声音的帮助下,我们做到了这一点。”
Duolingo 一直在与配音演员合作,为每个卡通角色创建自定义语音库。去年,其推出了 Lily 的英语和西班牙语配音版本,以及 Junior 的英语配音版本。后续,所有九个卡通角色都将推出英语、西班牙语、法语、德语和日语配音版本。今年晚些时候,语言学习者们还将听到新角色的声音,其中包括 Bea ——一位A型人格的世界旅行者,以及 Vikram ——一位尽责的丈夫、糕点师。
神经网络版定制声音还可以用来创建不直接模仿现有人物或角色的自定义音色。
Bird 表示:“我们能够创造各种复合语音,并可以将各种最佳背景样本融合在一起,尝试创造出以往从未真实存在的声音。这是一项能够释放人们创造潜能的技术。”
Bird 和 Boyd 认为,神经网络版定制声音将有助于促进娱乐、信息、教育等领域更深层次的互动。
Boyd 表示:“AI 最令人振奋的一点在于,人们永远可以开辟新的方式来应用这项技术,而令人惊叹的是,这些方式已远远超出我们对 AI 技术最初的设想。看到 AI 技术硕果累累的应用实践,我们感到无比地激动。”
顶部图片:在 AT&T 达拉斯体验店,顾客可以通过增强现实技术与兔八哥和其他色互动。兔八哥使用神经网络版定制声音创建的合成语音与客户对话,神经网络版定制声音是Azure认知服务的一项功能。乐一通(LOONEY TUNES)及所有相关角色和元素&™华纳兄弟娱乐公司(s21)。
点击链接即刻体验 微软人工智能语音服务:
想要定制专属 AI 声音?这是一份来自微软的保姆级攻略
参考链接:
[1] https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/
[2] https://azure.microsoft.com/zh-cn/solutions/ai/
[3] https://news.microsoft.com/transform/flo-rise-ai-chatbots-progressive-sabre-ups/
[4] https://news.microsoft.com/transform/progressive-gives-voice-to-flos-chatbot-and-its-as-no-nonsense-and-reassuring-as-she-is/
[5] https://azure.microsoft.com/en-us/services/cognitive-services/
[6] https://blogs.microsoft.com/on-the-issues/2021/01/19/microsoft-responsible-ai-program/
[7] https://azure.microsoft.com/en-us/resources/cloud-computing-dictionary/what-is-machine-learning-platform/
[8] https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/
[9] https://azure.microsoft.com/en-in/blog/creating-a-more-accessible-world-with-azure-ai/