OpenAI再下一城：发布Voice Engine，可使用文本和参考语音合成说话者的新语音！

nidongde2024-03-31 10:39:46186

点蓝色字关注“机器学习算法工程师”

设为星标，干货直达！

OpenAI又发布了一个最新的工作：Voice Engine。Voice Engine可以使用文本输入和单个 15 秒音频样本生成听起来自然且与原始说话者非常相似的语音。而且，一个小型模型仅通过一个 15 秒的样本就能创造出富有情感且逼真的语音。Voice Engine开发于2022年末，已经用于OpenAI的文本转语音API以及ChatGPT语音生成中。由于合成语音可能被滥用，所以OpenAI比较谨慎地发布和部署Voice Engine。

这里，OpenAI给出了Voice Engine的可能的早期应用。

提供阅读辅助

Voice Engine可以合成自然且听起来、富有情感的语音为非读者和儿童提供阅读辅助，这些语音代表了比预设语音更广泛的说话者范围。专注于儿童学业成功的教育技术公司 Age of Learning 一直在使用这项技术来生成预先编写的配音内容。他们还使用 Voice Engine 和 GPT-4 来创建实时、个性化的响应与学生互动。借助这项技术，Age of Learning 已经能够为更广泛的受众创造更多内容。

翻译内容

翻译内容，如视频和播客，让创作者和企业能够以流利的、自己的声音触及世界各地的更多人。这方面的早期采用者之一是 HeyGen，一个 AI 视觉叙事平台，它与企业客户合作，为各种内容创建定制的、类似人类的头像，从产品营销到销售演示。他们使用 Voice Engine 进行视频翻译，这样他们就可以将说话者的声音翻译成多种语言，触及全球观众。当用于翻译时，Voice Engine 保留了原始说话者的本地口音：例如，使用来自法语说话者的音频样本生成英语，会产生带有法语口音的语音。

触及全球社区

通过改善偏远地区的基本服务交付，触及全球社区。Dimagi 正在为社区卫生工作者构建工具，以提供各种基本服务，如对哺乳母亲的咨询。为了帮助这些工作者提升他们的技能，Dimagi 使用 Voice Engine 和 GPT-4 提供每位工作者的主要语言的交互式反馈，包括斯瓦希里语或更非正式的语言，如在肯尼亚流行的混合代码语言 Sheng。

支持非言语人群

例如用于影响言语的病症的治疗效果和对有学习需求的人的教育增强。Livox，一个 AI 替代通讯应用程序，为增强和替代通讯（AAC）设备提供动力，使残疾人能够交流。通过使用 Voice Engine，他们能够为非言语人群提供独特且非机械性的多种语言语音。他们的用户可以选择最能代表他们的语音，对于多语言用户，可以在每种口语中保持一致的语音。

帮助患者恢复他们的声音

对于那些患有突发性或退行性言语病症的人。Lifespan 的 Norman Prince Neurosciences Institute，一个非营利性卫生系统，作为布朗大学医学院的主要教学附属机构，正在探索 AI 在临床环境中的用途。他们一直在试行一个项目，为因肿瘤或神经原因导致言语障碍的个人提供 Voice Engine。由于 Voice Engine 只需要如此短的音频样本，医生 Fatima Mirza、Rohaid Ali 和 Konstantina Svokos 能够恢复一位因血管性脑肿瘤失去流利言语的年轻患者的语音，使用的是她为学校项目录制的视频中的音频。

参考语音：

合成语音：

推荐阅读

使用PyTorch 2.0加速Transformer：训练推理均拿下！

硬核解读Stable Diffusion（系列三）

硬核解读Stable Diffusion（系列二）

硬核解读Stable Diffusion（系列一）

带你入门扩散模型：DDPM

机器学习算法工程师

一个用心的公众号