除了AI孙燕姿,生成式音频究竟能带来什么?
作 者 | 青山白鹭
有人比喻ChatGPT对于科技行业,就像可乐中加入了薄荷糖,各种应用瞬间喷涌而出。
这句形容再贴切不过。6月11日,苹果发布了重磅产品——Vision Pro头显,VR头显设备一直被业界认为是苹果未来能取代手机业务的产品,不过,该产品面世却一拖再拖,直到最近被苹果发布,令外界诧异的是,苹果竟然将Vision Pro头显接入了AI助手。
头显接入AI有啥用?可以这么说,应用仅受限于你的想象力。比如你不知道如何驾驶一架战斗机,戴上具有AI功能的头显,它可以手把手教你开飞机;你打麻将老不赢?带上AI功能的头显分分钟让你“赌神附体”;出去登山AI头显可以让你化身为植物学家或动物学家……
就在前不久,全球大名鼎鼎的人形机器人公司波士顿动力,也宣布将机器狗接入ChatGPT,这犹如给了机器狗“生命”一般,让机器狗能够与人类对话,并回答各种刁钻的问题。
而这,仅仅是生成式AI应用的冰山一角。生成式AI未来将是什么样的形态?德意志银行的最新研报似乎给出了答案,生成式文字热潮后,科技界或将迎来生成式音频的大爆发。
生成式音频究竟能给我们带来什么?
AI音频已经来到我们身边
德意志银行的最新研报显示,从2020年第一季度到2022年第四季度,提到“生成式音频(generative audio)”的公司文件数量增加了13倍以上。
德意志银行分析指出,人们可以输入文本或图像来生成音频内容,而不需要音频专家或计算机专家。这可能会影响游戏、通信、音乐、新闻和医疗保健等一系列领域。
福布斯科技专栏文章同样指出,目前,AI模型已经涉足音乐领域,生成式人工智能很可能越来越成为创作歌曲和作曲的宝贵工具……
就在我们以为这样的场景会很遥远时,生成式音频已经来到我们身边。
谁能想到,有一天华语音乐圈的顶流会是AI呢?前一段时间,AI孙燕姿登上热搜,AI孙燕姿演唱的《爱在西元前》、《发如雪》等周杰伦代表作在B站已破百万播放,众多网友被AI孙燕姿的歌声倾倒,连“冷门歌手”孙燕姿本人都不得不发文回应此事。
除了AI孙燕姿,AI瞬间席卷了音乐圈,几乎没有热门歌手能逃脱此次AI热潮。甚至AI热潮还有向谱曲、填词等周边蔓延的趋势。
因为AI歌手太热,B站音乐区不得不专门在翻唱区为“它们”开辟了一个板块。除了AI孙燕姿,化身为AI歌手的还有陈奕迅、周杰伦、张学友、刘德华等等热门歌手。在这个板块你可以听AI孙燕姿唱的《向天再借500年》,AI爱莉安娜·格兰德唱的《天路》,AI那英唱的《2002年第一场雪》,AI周杰伦唱的《乌梅子酱》……
甚至不是歌手的“名人”,也能化身为AI歌手,比如AI雷军可以为大家演唱一首《千里之外》;AI孙红雷也可以演唱柔情版的《红豆》;AI马斯克演唱《好汉歌》竟然也不违和。
如果说,这股AI歌手热潮仅仅起到了娱乐作用,那么用AI复活那些去世的歌手,也确实为冰冷的科技世界增添了些许温暖。当AI迈克尔·杰克逊再次用他那标志性的嗓音为我们演唱歌曲时,下面的留言中有网友写道:“MJ的声音一出,我就瞬间泪崩了……”一位网友在AI张国荣的演唱视频中留下评论,AI音乐技术让这些已经离世的歌手以另一种方式出了“新歌”,对粉丝们而言未尝不是心理慰藉。
正如ChatGPT对各行各业产生的影响一样,AI歌手也带来了巨大争议,有业内人士表示,AI歌手是否构成侵权,是行业内最大的争议。有律师指出,AI模拟的声音并不构成侵权,也不受《著作权法》保护,但是被翻唱的歌曲是有著作权的,需要取得授权才能使用。
还有网友指出,如果声音可以被模拟,那么是不是代表着声纹锁这样的产品会面临巨大风险?有观点指出,“生成式音频”确实会对现有的社会秩序带来更多的冲击,比如还可能引发电信诈骗、伪造高层指令等等一系列风险。
遗憾的是,这样的担忧已经成为现实。美国《时代》周刊在4月曾报道称,亚利桑那州的一个家庭以为接到了绑架电话,电话里的声音听起来与亲人的声音一模一样,甚至连哭腔都别无二致,结果发现这是一个完全由AI制造的骗局。
澳大利亚悉尼科技大学电气与数据工程学院副教授迪普对媒体指出,AI模型仅需要被模仿者说几个短语,就可以“克隆”出和他一模一样的语音,有些模型和算法只需一分钟甚至更短时间。
应用场景远超想象
AI歌手能带给大众的或只是会心一笑,娱乐性其实仅仅是“生成式音频”极小的一个应用场景,“生成式音频”能带给我们的远超想象。
事实上,互联网公司在行业最前沿从未缺席。据最新的《中国人工智能大模型地图研究报告》显示,据不完全统计,中国10亿级参数规模以上大模型已发布了79个,特别是在自然语言理解、多模态等方面,出现了多个在行业有影响力的大模型。
从世界范围来看,拥有生成式音频相关专利最多的公司包括索尼(Sony)、亚马逊、华为、字节跳动、Adobe、苹果和腾讯。
6月初,阿里云向外界透露了通义大模型进展,聚焦音视频AI的“通义听悟”正式亮相,成为国内首个开放公测的大模型应用产品。“通义听悟”正是“生成式音频”一个“非娱乐化”的落地样本。
如果仔细追溯通义听悟的“前世今生”,会发现它就是阿里云在2021就重点打造的 “听悟”大模型产品,现在被阿里云寄予厚望,就是因为除了集成阿里通义千问大模型的理解与摘要能力外,还融合了阿里最先进的语音语义、多模态算法等技术。
通义听悟带给我们的是AI音频杀入办公赛道。结合当前的官方定义来看,通义听悟具备“听”与“悟”能力,即“听力好 ”,能高准确度生成会议记录、区分不同发言人,“悟性高”,可形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。
用AI音频杀入办公赛道的,不仅仅是阿里云。还有腾讯会议、科大讯飞等等实力强悍的服务商,此外抖音的飞书妙记、搜狗、网易有道也在对这个赛道虎视眈眈。
究其原因会发现,除了文字输入这种与机器交互的方式外,效率最高、最准确的就是音视频与机器交互这种方式了。而且如果语音识别度高,音频的输入速度远远高于文字输入。但是,目前文字和音频之间的转换,仍存在一些瓶颈。
据业内人士指出,从文本语言模型转向音频语言模型,仍有一些问题待解决。比如,文本和音频之间不是一一对应关系。对人类来说同一句话可以有不同语气的演绎,对AI理解来说却是一个难题。此前,谷歌的AI工程师指出音频并不容易用字符来记录:“音频的数据速率要更高,用数十个字符就可表示的书面句子,其音频波形通常含有几十万个值。”
生成式音频不仅仅杀入了办公赛道,给音乐界带来的影响正如上文提到的,各种AI歌手的出现几乎颠覆了整个行业。但是,生成式音频带来的并不是只有“毁灭”,还可以帮助音乐人突破创作瓶颈。
梳理发现,其实语音、音频合成技术已经存在了几十年,音乐合成器在之前一直扮演着创造世界上从没有过的声音的“使命”,但是它必须由人来操作每一步。后来诞生了数字音乐,虽然可以大大方便音乐人来创作音乐,但是依然需要创作者具有多年的学习和使用经验。
当AI音乐席卷了音乐圈后,人们发现创作AI音乐已经不需要太多音乐知识和专业能力,只需要简单地输入一些文字和描述,就能很快创作出音乐,当然这样的“音乐”在一些音乐人眼中看来,还不能称之为“音乐”。但是随着大模型的训练,我相信这种由AI创作的音乐一定会有惊人的效果。
此外,生成式音频连游戏产业也开始颠覆。在过去,游戏公司支出的一个大头,就是游戏中各种音效、BGM、片头曲片尾曲等等,现在有了生成式音频,可以大大将这项开支节俭。
有游戏行业从业者指出,游戏中的音频主要分4个部分:音乐、语音、音效、声音引擎。之前的游戏音频开发需要经过漫长的设计、制作生产、引擎逻辑、音频QA等工序。目前,AI音频技术可以应用在设计、制作生产等环节,使得游戏音频开发时间大幅缩短,而且成本也低得多。
综合来看,生成式音频已经来到我们身边,由计算机生成的语音可以接近人类语音所传递的表达、语调和情感水平,这将为实时翻译、音频配音和自动实时配音和叙述带来新的可能性。对于我们来说,生成式音频的到来影响是巨大的,但它也告诉我们,它不是人类创造力的替代品。所以,未来世界会是什么样,我们仍不得而知。