最新AI配音技术刷屏!声音克隆+口型同步 新榜出品

2024-04-10 16:08:00
aiadmin
原创
785

10月19日,B站UP主“johnhuu”颁发了一条题为“这才是没有译制片音调的翻译”的视频。

视频一起头,霉霉正正在用地道的泛泛话侃侃而说。正当我骇怪于“霉霉什么时辰中文这么准绳了”的时辰,才挖掘这是AI配音的效率。

对照英文原版视频,AI不只确凿翻译了她的话,并且还原了她的声响、语气和音调,乃至连嘴型都换了……

除了霉霉之外,视频还显示了特朗普、憨豆先生、斯美人、艾玛等人“说中文”,蔡明用英文说小品的效率,弹幕直呼“有内味了”。

比拟于“噢!我的老店员,你迩来过得还好吗?”如许的古代译制片腔,这些AI配音可能说是自然得毫无违和感。

倘若能愚弄AI轻松杀青音视频内容的当地化,对待内容创作家来说,无疑是拓宽了受众界限,受众自己也能取得更原汁原味、更具陶醉感和心情共鸣的视听体验。对待出海创业者来说,则是妥妥的出海好襄助。

那么,AI当地化配音背后的本事道理是什么?目前有哪些器材可能杀青上述视频的效率?这项本事的操纵前景奈何?配音艺人会是以面对赋闲危境吗?

正如UP主“johnhuu”所说,要抵达视频中的效率,广泛需求同时餍足3个前提:地道的白话翻译、克隆发言者的声响、把嘴型换了。

跟着语音识别本事(ASR)的前进,以及ChatGPT等AI器材越来越众地操纵于说话翻译,AI往往可能天生比机翻更确凿、地道的翻译文本。

而声响克隆本事是AI歌手所依赖的中央。当下较为著名的声响克隆器材如Eleven Labs、微软的VALL-E等,均可能通过上传少量音频样本,天生与原音色极为切近的声响。

再通过TTS(Text To Speech)和口型同步本事,即可天生险些齐全笼盖原片、让人难辨真假的AI配音。

相较前两者,后者依赖“心情贪图识别”“心情特质开掘”“自然说话照料”等AI本事,可能使AI配音更敏捷、富于心绪变更,以解除严寒、不自然的呆板感。

这是ElevenLabs近期颁发的一款产物,勾结了ElevenLabs的众说话语音合成、声响克隆、文本和音频照料本事,可能把轻易一段音频或者视频,疾速翻译为包含中文、葡萄牙语、日语等正在内的29种说话,同时保存原语音者的音色特质和心情。

除了上传视频外,还可能粘贴Youtube、TikTok、X(Twitter)、Vimeo,以及轻易视频的链接。树立杀青后,点击最下方的Create按钮,起初音频克隆,杀青后可能预览看看效率,然后再下载。

需求谨慎的是,正在未登录和注册的环境下,AI Dubbing仅助助翻译一个最长为1分钟的视频,免费体验额度用完即需求付费操纵。

正在AI Dubbing的颁发会上,ElevenLabs首席履行官兼笼络创始人Mati Staniszewski分享了他正在童年功夫体验的后期配音内容的负面体验:“我正在波兰长大,咱们看的英语片子都是由一个旁白配音的。这意味着每个艺人都有同样的声响,这让观影体验大打扣头。人工智能配音的颁发是咱们正在解除这些内容说话袭击方面迈出的最大一步,将助助观众享用他们思要的任何内容,无论他们说什么说话。”

HeyGen是一个AI视频和数字人天生网站,9月7日上线了Video Translate(视频翻译)成效后,正在X上赶速走红。

有海外网友操纵HeyGen的即时配音+口型同步成效,天生了Elon Mask用日语、西班牙语、德语等8种说话的措辞片断。

目前,HeyGen的视频翻译成效助助14种说话,依托的是ElevenLabs的声响照料本事。然而,用户必需上传时长居于30秒至5分钟之间的视频,不然无法翻译和天生。

目前LipDub助助28种说话,正在说话翻译方面操纵了OpenAI的GPT-4模子,而且可能识别措辞人的唇部行为。

LipDub的创始人Misra和Churchill外现,他们早就思正在配音翻译中插足口型般配成效,但没思到会这么速杀青。

Misra说:“咱们最初以为这项本事需求10年时光才也许杀青,但现正在的本事起色实正在太速了,险些每个月乃至每周都有新东西浮现。”

Verbalate也能将视频同步配音成倾向说话,差别的是,Verbalate可认为长达30分钟的视频配音。

目前Verbalate最根柢的订阅安放为每月9美元,该套餐准许用户翻译一个10分钟的视频,每分钟的非常用度为1美元。

除了上述特意的AI视频翻译+配音器材外,上个月,海外流媒体音乐效劳平台Spotify也起初涉足这一周围,推出Voice Translation(语音翻译)成效。

该成效由OpenAI的语音识别模子Whisper供给本事助助,也许正在翻译音频时师法原播客主播的声响,并操纵相像的语气和节律,供给西班牙语、法语和德语的无缝听力体验。

就现阶段AI音视频翻译和配音本事的起色水准而言,根基可能应付大局部对艺术性和体现性条件较低的内容,如散布视频、讲授培训视频、正在线进修视频、播客、局部社交媒体内容等。

逛戏中的脚色语音广泛需求邀请差别邦度的声优,用差别的说话外达同样的内容,而AI可能将原配迅速地转换为其他语种,而且保存原配的音色和心情。

以米哈逛旗下的逛戏《原神》为例,目前,全配音根基依然成为逛戏主线剧情和局部要紧支线剧情的标配。

“剧情怎样没语音”“静音过剧情实正在很难代入”等已成为玩家社区中常睹的不满声响,阔绰的声优阵容也是玩家们津津乐道的话题。

但同时,邀请声优的代价也相当腾贵,正在浮现台词微调、内容窜改的环境下,还需求从新调集配音艺人屡次进棚重录。

著名逛戏引擎厂商Unity和Epic都准许将AI配音插件嵌入到引擎步调中,以便于逛戏开荒者挪用。邦外里的很众逛戏、影视公司也正在主动加码AI配音本事。

昨年9月,因配音艺人无法持续插手语音收录劳动,为了避免较长时光静音实装,影响玩家逛戏体验,米哈逛旗下《不决事变簿》和网易旗下《时空中的绘旅人》都宣告采用AI配音片刻代替真人配音。

《不决事变簿》称,将基于自研的“逆熵AI”天生脚色语音。《时空中的绘旅人》则与网易互娱AI Lab互助,通过提取脚色原有配音声纹特质,录制新语音。

音信一出,莫衷一是,许众玩家以为这比换新CV更容易让人经受,但质疑者费心,AI配音没有心情和魂魄。

然而,当脚色的AI语音实装后,玩家们无不惊艳了一把!AI险些完整复刻了原配音艺人的音色,就连气音、颤音、停止、轻重等细节也有所出现。

本年9月,日本配音艺人梶裕贵正在出道20周年之际,宣告安放愚弄我方的声响开荒AI语音软件,并正在Youtube颁发了一条与他自己无异的AI语音。

更有甚者直接开办了一家AI配音公司,制福公共。本年10月,配音艺人Ciccy Jones开办了一家AI始创公司Morpheme,据她先容,异日庞大的配音劳动只需求外包给我方的“数字孪生”。

前不久,绽放全邦3A撰着《赛博朋克2077》的材料片《往日之影》颁发,CDPR用AI正在片中重现了已故配音艺人雷泽克的声响。

雷泽克是逛戏中人气脚色维克众的配音艺人,但已因病丧生。为了维持材料片与逛戏本体的声响同等,制止逛戏玩家形成决裂感,CDPR断定采用AI本事来出现雷泽克的声响。

正在征得雷泽克宅眷的许可后,CDPR请来一位配音艺人从新录制了维克众的一起台词,并通过语音合成软件Respeecher对配音举办微调。

然而,固然AI配音操纵本钱较低,商场也颇为看好AI配音本事正在逛戏、影视,以及本性化人机交互等周围的操纵前景,但高质料的当地化配音高度依赖语境、心情和白话化说话,需求照料渺小的情境和文明分别。

总的来说,AI配音目前还无法额外确凿地照料这些庞大要素。倘若要保障配音质料,人工插手弗成或缺。

并且,因为逛戏、影视周围的配音艺人生态依然额外成熟,短期来看,AI配音本事照旧只是对配音艺人生态的填充。

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号