目录:
视频: ä¸è¦å²ç¬æåçæ§ (十一月 2024)
2017年,毁灭性神经系统疾病-肌萎缩性侧索硬化症(ALS)丧失了说话能力,这是著名的冰桶挑战赛的创始人帕特奎因(Pat Quinn)。
得益于机器学习和深度学习的进步,人工智能算法已经非常擅长模仿人类。 但是,尽管该领域的许多显着发展都是负面的,但AI的模仿能力对Quinn来说是积极的变化。
Project Revoice的共同创始人奥斯卡·韦斯特达尔(Oskar Westerdal)说:“大多数患有ALS(也称为运动神经元疾病)的人最终都瘫痪了,无法与任何人为的声音交流,”该项目旨在帮助像奎因这样的ALS患者。
为了重现Quinn的声音,Project Revoice与Lyrebird合作,Lyrebird是使用AI复制人的声音的少数公司之一,该公司还包括Google的WaveNet和Y Combinator支持的Voicery,这是一家使用AI来创建合成语音录音的创业公司。 。
深度学习如何产生人的声音
这些应用程序的背后是深度学习算法,这是AI的流行分支,它仔细阅读大量数据,以获取洞察力和模式,而传统的基于规则的软件无法捕获这些数据。 当您训练具有足够语音记录的深度学习语音合成器时,它将创建代表该人的语音并可以生成新语音样本的数字模型。
在以AI为动力的语音合成技术问世之前,ALS患者不得不使用不是他们自己的通用数字语音。 其他技术可以将预先录制的句子与患者的语音拼接在一起,但是结果过于人为,需要数十个小时的语音记录才能最大限度地减少使用。
另一方面,深度学习应用程序需要更少的数据并提供更好的结果。 韦斯特达尔说:“ Lyrebird仅用几个小时的音频就可以实现惊人的成就-它为人们提供了完整的数字语音克隆,因此他们可以说出任何想要的内容。”
重建无声者的声音
深度学习应用程序的局限性之一是它们依赖于高质量数据样本来训练其神经网络。 ALS患者的问题在于一旦他们失去声音,就不可能记录声音样本。 幸运的是,奎因(Quinn)有数小时的主题演讲和访谈记录。
“最大的挑战是质量。这项技术完全依赖于具有精确的脚本的一致,高质量的录音,因此我们不得不与录音室合作,手动“重新制作”并抄录我们能找到的所有对话内容帕特”,韦斯特达尔说。
Lyrebird联合创始人Jose Sotelo说:“我们有点害怕我们无法提供高质量的声音来创建Pat的声音。” “由于我们无法获得干净的录音,所以人工声音的最终质量并不完美。我们认为我们可以在干净的录音上做得更好。”
结果听起来仍然有些不自然和综合。 但是对于一直使用通用语音进行交流的Quinn来说,差异是巨大的。 他说:“在通过这项新技术听到我的声音后,我被吓了一跳!让患者知道在ALS消失后他们可以拥有自己的声音,这将改变人们与ALS的生活方式,”他说。
Quinn建议ALS患者在为时已晚之前录制声音。 他说:“在再次听到自己的声音后,我需要ALS患者知道记录他们的声音非常重要。”
平衡AI合成器的负面使用
今年早些时候,人工智能驱动的面部交换应用程序FakeApp引发了以名人和政客为代表的假色情视频的袭击。 令人担忧的是,诸如FakeApp和Lyrebird之类的应用程序将迎来假新闻,欺诈和伪造的新时代。
此前,Lyrebird网站上的道德规范页面承认,该技术可能“具有潜在的危险后果,例如误导外交官,欺诈行为,以及更普遍的其他任何窃取他人身份所引起的问题”。
为了说明这一点,该公司的网站上有几张综合录音,这些录音是用唐纳德·特朗普和巴拉克·奥巴马的声音创作的。
@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI(@LyrebirdAi),2017年9月4日
奎因的故事可能有助于阐明一个行业的积极方面,该行业对它的应用程序潜在的令人毛骨悚然和不道德的使用大为反对。 Lyrebird的Sotelo提醒说:“重要的是,人们必须意识到这项技术的光明面。”
除了医疗用途,AI合成器应用程序还可用于其他生产目标。 Voicery正在为品牌提供由AI算法提供支持的自定义数字化语音。 Google也在尝试WaveNet,以为其使用Google Assistant的设备的用户提供更自然的体验。 该技术有用的其他领域包括使有声读物自动化或使电影中的配音更加容易。
毫无疑问,道德和法律上的障碍将会出现,辩论将继续。 但是对于Quinn来说,人工智能是一支强大的力量。 他说:“我不想听起来像一台计算机。” “我想听起来像我。”