MetaVoice 1B - TTS 和语音克隆

MetaVoice 最新发布的 MetaVoice1B，是一款引起热烈讨论的文字转语音（TTS）模型。不过，让我们不要太着急——鉴于有时候这类模型会表现出“飞跃式”的语言表达，我们还是一步步来。

MetaVoice 是一家涉足语音到语音转换领域的初创公司，如今也进入了文字转语音的领域。看来他们撸起袖子、构建了一个庞然大物——拥有 12 亿个参数、注入了10万小时语音数据。对于一家初创公司来说，就像是以小博大，称得上是非常有雄心壮志了。

该模型号称具有 zero-shot 克隆功能，不熟悉这个术语的朋友可以理解为：它无需事先针对特定声音进行训练，就可以模仿这些声音。只需给它三十秒某人甜美的声音样本，无论这个人是说美式英语还是英式英语，瞧——你就拥有了一个数字模仿者。这就像是一只上了声乐课的鹦鹉。

更有趣的是，MetaVoice 承诺即将推出微调脚本，供那些自己热衷于克隆声音的玩家使用。他们声称，不久你就能调整模型的“声带”，让它可以匹配各种口音，走出英语世界的局限、进入更为广阔的语言环境。

他们的另一个亮点是成功克服了语音模型中经常出现的”幻觉”，也就是说模型会创造出一些不存在的词句。我们可不想在询问天气预报时得到虚构的词汇，对吧？之前的 Bach 模型就颇有这种创作倾向，常常让使用者哭笑不得。

好奇背后的机制吗？模型架构的讨论就像是一场科技诗会：融合了 causal transformer 和 non-causal transformer，还有 multiband diffusion，以及负责过滤噪音的深度神经网络——简直是未来机器人的美梦。

不过实践出真知，我们不应只停留在理论上。接下来，我要在 Colab notebook 里实际试用一下这个模型。Colab 可以说是我们的数字沙盒，在里面做实验完全免费。我的发现是什么呢？有些生成的声音流畅优美，但其他的就……嗯，恐怕是赢不了任何模仿秀的大奖。

尝试调整不同的参数，比如 temperature 和 guidance scale ，这种感觉就像是在调校一件精密的乐器。精细的调整可以将笨手笨脚的 TTS 模型变成一位谈吐自如的播音员。不过，我确实也碰到了生成文本缺失的情况，在语音合成的宏伟交响中，出现这些小插曲是可以理解的。

现在是共享的时代，MetaVoice1B 是开源的，是送给技术玩家和创作者们的一份大礼。当然也有要注意的地方：这个模型还有很多地方需要向私有模型学习，比如 Google 那神乎其神的 SoundStorm，或是 OpenAI 的大师之作。MetaVoice1B 就像一位潜力无限，但尚未完成学业的天才少年。