yao 发表于 1-13 11:39

3 秒复制任何人的嗓音,微软音频版 DALL・E 细思极恐

3 秒复制任何人的嗓音,微软音频版 DALL・E 细思极恐

微软推出最新 AI 成果——语音合成模型 VALL·E,它脱胎于 DALL・E,但专攻音频领域。只需 3 秒语音,就能随意复制任何人的声音。

基于 AI「没听过」的声音合成语音,即零样本学习。VALL・E 解决了此前预训练 + 微调模式下,零样本场景导致的生成语音相似度和自然度差的问题。此外,它还同时还支持语音编辑、与 GPT-3 结合的语音内容创建。

VALL・E 还能模仿说话者的多种情绪,包括愤怒、困倦、中立、愉悦和恶心等好几种类型,同时,连说话者的环境背景音也能准确还原。

有网友畅想它可以应用的方向,包括帮助残障人士和别人对话,有声书录制等。
页: [1]
查看完整版本: 3 秒复制任何人的嗓音,微软音频版 DALL・E 细思极恐

博一网
www.bo-yi.com
点击查看放大的二维码
订阅号:jc68com
点击查看放大的二维码
服务号:jc68-1
点击查看放大的二维码
移动端二维码
腾讯微博
腾讯微博
新浪微博
新浪微博