近日,B站神级配音 AI 意外曝光,这一消息犹如一颗重磅炸弹,在鬼畜区掀起了轩然大波。那个原本只属于 UP 主们挥洒创意的领域,此刻仿佛被这神秘的 AI 所占领。视频中,AI 展现出的配音技巧之高超,让一众 UP 主都陷入了沉默。它仿佛拥有着无尽的灵感和创造力,能将各种素材演绎得淋漓尽致。这一事件引发了人们对于 AI 在创作领域的深刻思考,究竟是助力还是威胁?它会如何改变鬼畜区乃至整个 B 站的生态呢?这一切都成为了大家热议的话题。
本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《B站神级配音AI被曝光!一个「意外泄露」的视频,让鬼畜区UP主都沉默了》
最近一个「泄露」的文本转语音模型演示版本在Reddit上火了。
这个「泄露」的演示视频被网友贴出来后,评论区一片惊呼。
这情绪太细腻了,我不相信这不是人说的。
我们终于能跟糟糕的配音演员说拜拜了。
它来自一个还没正式发布的项目,IndexTTS2。不过我们发现,这个演示版本并不是什么项目的泄露文件,而是论文作者亲手贴出来的Demo演示页。
看起来只是一次误会。但它惊艳的背后,却可能是下一代AI声音生成的分水岭。
不是404链接,是AI配音的「奇点」时刻
故事要从这个链接说起,https://index-tts2.github.io,这是一般放在GitHub上的项目主页链接格式,但是这个链接直到现在都是404。
Reddit上这位网友在GitHub上找到了这个项目仓库,发现了里面有多个IndexTTS2的演示视频,他分享了其中的一个https://index-tts.github.io/index-tts2.github.io/ex6/Empresses_in_the_Palace_1.mp4。
这些演示视频,不仅音色还原度高,情绪也自然的让人一时忘了是在听AI。
除了甄嬛传这个配音视频,还有让子弹飞的演示视频,同样精彩。我甚至觉得如果电影需要英配,用这个是完全可以。
但其实这些Demo并不是「偷偷隐藏」在项目仓库里的。作者在论文中给出的链接就是https://index-tts.github.io/index-tts2.github.io/,只不过可能是还没有写好演示的网页,所以被误会成了这是一个泄露的演示版本。
所以准确地说,这是一场误会,但也正是这场误会,让更多人第一次看到了IndexTTS2的惊艳表现力。
IndexTTS 2项目主页网站目前仍是404
IndexTTS2就是那种一耳朵就能分辨出「质变」的模型。甚至不需要对比参数,我们只要点开这个demo,就能很明显的感觉到它和之前那些「AI声音」不一样。
声音不再平滑得像机器,而是有起伏、有重音、有轻笑、有叹息。
情绪不是靠「语速快慢」去模仿,而是真的在「表达情绪」。
音色不仅像人,甚至像是有个人格、有表演的「人」。
如果说ElevenLabs让我们第一次看到了产品化语音的可行性,IndexTTS2给人的震撼,更像是Midjourney横空出世那年,大家开始意识到:AI不止能模仿人类,它能「重构表达」。
揭秘B站王牌:AI如何学会「表演」而非「朗读」
那么这个模型到底是怎么回事,又是怎么把AI生成的声音做到这么有情感,这么像真人。
IndexTTS2来自B站语音团队,他们在上个月发布了一篇论文专门介绍这项工作,哔哩哔哩技术公众号在前几天也分享了这个模型的相关信息。
论文链接:https://arxiv.org/abs/2506.21619
它是一个文本转语音模型(TTS),但和过去我们听到的AI声音不一样。它不是在读字,而是在讲话;不是同步而粗糙的配音,而是有情绪、有表现力的声音演绎。
IndexTTS2模型概览,由基于源文本、风格提示、音色提示输入的文本转语义模块、语义转频谱图模块和将频谱图转换为高质量语音波形的声码器三个模块组成,实现端到端的语音合成过程。
同时,这个模型还能做到:
不依赖参考音频,通过微调语言模型Qwen3来解读自然语言指令实现的情感控制
对同样的一段文本,不同语音、不同情绪、不同语速都能精确对应
语音时长可控,可以用在配音对齐、视频解话、影视合成等场景
它不仅仅是一个「好听」的模型,而是一个「好控」的模型。你给一段文字,它不仅能说出来,还能按照你的意思,表现成一个有情感的声音表演。
B站也拿这个模型和阿里通义实验室的CosyVoice2、上海交大的F5-TTS、MaskGCT等TTS开源模型,在多个评估基准上进行测试,IndexTTS2在词错误率、说话人相似度以及情感保真度等多个关键指标上均是当前最优的。
但目前IndexTTS2还没有完全开源,哔哩哔哩技术公众号在文章里面说会持续优化模型性能,全面开源IndexTTS2的推理代码和模型权重。希望未来能尽快得到实际体验的机会。
就像Reddit上网友说的,IndexTTS2是具有革命性意义的一项工作。
这是我第一次真正觉得AI声音可以让人享受整部电影的配音。我注意到它在配音时甚至克隆了中文口音。非常有趣。
我迫不及待想用好的参考声音在本地尝试它,尝试不同的情感参考音频片段,并根据需要多次重新运行生成,以获得非常逼真的表演。这太酷了。
它让我们看到的,不仅仅是一项很酷的技术,更是一个内容创作新范式的黎明。从「能说话」到「复制音色」、再到现在「突出情感表现力」,我们的短视频可能又将有新的素材了。
如果IndexTTS2在大部分视频的配音上,都能做到像文章开头说的那个「泄露Demo」这么出色,那我们真的可以说看一部AI配音的电影了。
欢迎加入APPSO AI社群,一起畅聊AI产品,获取#AI有用功,解锁更多AI新知
我们正在招募伙伴
简历投递邮箱hr@ifanr.com
✉️邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
下一篇:消费投资开始热起来