原标题:复制你的声音只需3秒钟。AI 新年会不会是人工智能蓝海?
2022年属实是AI大年。
从年初的人工智能绘画到年底的人工智能作者,这种人工智能似乎真的刷了一整年的存在感。
先是 画图——画好图——画黄图,再来 写文——写好文——写黄文,我不知道人工智能制作人用什么样的伟大信念来制作这些新奇的好东西,但只要落在网民手中,这些数据模型肯定会充满奇怪的东西。
以我们群最近疯狂转发的AI绘画为例。 就训练结果而言,在我不知不觉中,这个小机器人已经能够准确地掌握我的XP了。
但今天要介绍的并不是这两个已经被打破了AI,而是微软 生产的AI成果——语音合成模型 VALL·E。
它不是那些影视剧解释中的那些 “注意,这个人叫小帅。”AI读者有固定的语气和语调,但自称是AI读者“3秒钟”赛博卡西可以复制你的声音。
根据我查来的说法,VALL·E与传统的AI语音模型相比,采用了传统的AI语音模型 “梅尔频谱”提取特征,改变思维和轨道,将语音合成步骤改为 “语言模型”的任务。
以前走 音素→梅尔频谱(mel-spectrogram)→波形过程,被子VALL·E改变成了 音素→离散音频编码→波形。
——当然,虽然这些东西是我写的,但我根本看不懂官方说了什么。我只是放了一张图片,看起来文章没那么空。
在我能理解的介绍中,让我觉得最值得告诉你的就是这个VALL·E,采样人的音色不仅可以用数据模仿,还可以连接 语气和 语速模仿得很好。
此外,包括采样者 在背景音和话语中 情绪,VALL·E通过学习可以慢慢掌握。
背景中的音色、语气、语调、语速、情绪甚至环境音都得到了训练 的语音AI,说的话可能和我没什么区别。
搭配上“AI作者”和“AI绘画”,好家伙,已经可以在公司会议上组织赛博PPT了,等有一天“AI动画”出来了,我们可能还能看到机器人自己拍的电影。
很多网友也评论说,在画家和作者失业后,海克斯狂潮终于轮到配音演员了。
像其他 AI 和新技术一样,这个还没有开源VALL-E尽管微软发布了关于使用安全和伦理的担忧,但它也引起了许多人的担忧 VALL-E 道德声明,但谁能说出未来呢?
大家怎么样,这样看下去,你觉得这个VALL-E新年会不会是人工智能蓝海?