MockingBird 离线语音合成中文 TTS 整合包使用秘籍

MockingBird 是一款超实用的实时语音克隆软件,它能让语音克隆变得轻而易举。它支持普通话,能让你用不同音色轻松实现文字转语音(TTS)功能。

0. 免安装环境的奥秘

此次我采用了便携版的 Python,把所需的环境、依赖项以及模型都打包在一起。你无需手动安装任何东西,就能直接使用,十分便捷。

1. 使用指南

下载与解压

在本页面右侧下载压缩包,然后找一个至少有 5G 可用空间的磁盘进行解压。要特别注意,解压路径不能包含中文!解压完成后,进入文件夹,双击运行 “工具箱 / 运行工具箱 – vc 模式 / 运行 web 程序”,即可开启项目体验之旅。

1.1 工具箱使用

选择输入音频

在【Utterance (音频)】处,你有三种选择音频的方式。一是选择我内置的某一条音频,点击【Load Above (加载上面)】,选中的音频会显示在左边的【Current (当前)】位置;二是点击【打开本地】,选择你自己要模仿的音频;三是点击录音按钮,录制自己的声音作为输入。

选择声学模型

点击【Synthesizer】来选择声学模型。“pretrained – 11 – 7 – 21_75k” 是作者提供的原始模型;“qh” 开头的是用海子姐的语音微调过的模型;“rty” 开头的是用然天一大佬的合作音娘三七的语音微调过的模型。微调后的模型更适合模仿对应角色的语音。如果你之前选择的是 “qh” 或者 “rty” 开头的输入音频,选择对应的模型能获得更好的合成效果;若选择的是其他语音,选择作者提供的模型可能效果更佳。

选择声码器

关于【Vocoder】(声码器)的选择,你可以先使用 “g_hifigan” 快速合成音频,试听效果。如果效果不错,再选择 “pretrained”,虽然合成速度慢一些,但能获得更好的效果。

合成音频步骤

合成音频分两步进行。第一步,声学模型合成梅尔图,你可以点击【Synthesize only】来完成。若合成的梅尔图效果清晰,可继续下一步;若不清晰,可多合成几次。第二步,合成音频,点击【Vocode only】即可。当你想更换声码器时,更换后点击【Vocode only】,可避免重复合成梅尔图。【Synthesize and Vocode】则是同时进行这两步操作。

音频查看与导出

合成完毕后,左下角【Toolbox Output】位置会出现新合成的音频,你合成过的音频都会存放在这里。你可以点击【Replay】重听,也可以点击【Export】导出音频。下方的【Audio Output】可选择播放音频的设备。

右侧其他选项说明

  • 【Random seed】:可能是用于固定每次合成中的随机种子。
  • 【Enhance vocoder output】:自动裁剪输入音频中的非语音部分,以获得更好的模仿效果。
  • 【Style/Accuracy】:具体作用不太明确,你可以咨询作者。
  • 【最大句长】:建议拉到最大,否则合成长句时可能会出现截断现象。

常见问题解决

更换声学模型或声码器等情况下点击合成,可能会出现窗口布局改变且合成失败的情况,再次点击合成即可。若出现颤音,重新运行声码器基本能解决问题。

1.2 工具箱 – vc 模式

首先选择、上传或录制两条音频。在【当前】中选一条,点击【选择为被转换的语音输入】;再在【当前】中选另一条,但不要点击【选择为被转换的语音输入】。然后点击【Extract and Convert】,程序会尝试用后选音频的音色来朗读先选音频的内容。

1.3 web 程序

双击运行 web 程序,复制给出的地址,粘贴到浏览器中打开(若无法访问,可尝试访问 127.0.0.1:8080)。其操作顺序和工具箱基本一致,在左侧切换模式,右侧工作区可上传音频或使用示例音频进行合成。

2. 其他细节说明

训练环境

环境中安装的是 CPU 版本的 PyTorch,仅可用于合成,不能用于训练。若你想进行训练,需自行安装 GPU 版本的 PyTorch 以及 CUDA、cuDNN 等环境,这需要你具备更深入的知识。

安装其他包

若你需要安装其他包,可运行文件夹中的【命令行】,然后使用 “python -m pip” 代替原本的 “pip” 命令进行安装。

C++ 编译环境

由于目前有些包包含 C 语言源码,需要编译才能安装。我已将唯一需要编译的包 “ctc_segmentation” 编译完后打包放在 “lib” 文件夹下并完成安装。若以后遇到类似问题,可找有编译环境的人帮你打个编译完的包。

重新获取与更新项目

若你需要重新获取项目,需备份所有位置下的 “.pt” 文件,然后删除源 MockingBird 文件夹,双击【获取项目】,程序会重新从 GitHub 上克隆项目。若要更新项目,双击【更新项目】即可。

GitHub 访问问题

若遇到 GitHub 访问失败的情况,这是偶发现象,重试即可;若还是不行,过段时间再试。

其他模型获取

你可以在 GitHub 项目的 issue 里查找其他网友分享的模型,下载后将 “.pt” 文件放在 “MockingBird\synthesizer\saved_models” 文件夹下即可使用。

MockingBird 与 PaddleSpeech 对比

MockingBird 和 PaddleSpeech 虽都能实现语音克隆功能,但属于不同类型的产品。个人认为 PaddleSpeech 的小样本微调更具实践价值。由于作者较忙等原因,MockingBird 目前开发进度缓慢,且难以获取其他开源数据集。理论上,若数据集充足,MockingBird 的效果至少能和 PaddleSpeech 一样好。PaddleSpeech 有两名全职 TTS 开发者,数据标注、预处理和微调训练都已实现自动化,节省了大量人力。建议有语音克隆需求的小伙伴都尝试一下这两款软件,找到适合自己的解决方案。

 

现在,你可以按照这个详细教程,尽情使用 MockingBird 离线语音合成中文 TTS 整合包,开启你的语音克隆之旅啦!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。