MockingBird 离线语音合成中文 TTS 整合包使用秘籍

MockingBird 是一款超实用的实时语音克隆软件，它能让语音克隆变得轻而易举。它支持普通话，能让你用不同音色轻松实现文字转语音（TTS）功能。

0. 免安装环境的奥秘

此次我采用了便携版的 Python，把所需的环境、依赖项以及模型都打包在一起。你无需手动安装任何东西，就能直接使用，十分便捷。

1. 使用指南

下载与解压

在本页面右侧下载压缩包，然后找一个至少有 5G 可用空间的磁盘进行解压。要特别注意，解压路径不能包含中文！解压完成后，进入文件夹，双击运行 “工具箱 / 运行工具箱 – vc 模式 / 运行 web 程序”，即可开启项目体验之旅。

1.1 工具箱使用

选择输入音频

在【Utterance (音频)】处，你有三种选择音频的方式。一是选择我内置的某一条音频，点击【Load Above (加载上面)】，选中的音频会显示在左边的【Current (当前)】位置；二是点击【打开本地】，选择你自己要模仿的音频；三是点击录音按钮，录制自己的声音作为输入。

选择声学模型

点击【Synthesizer】来选择声学模型。“pretrained – 11 – 7 – 21_75k” 是作者提供的原始模型；“qh” 开头的是用海子姐的语音微调过的模型；“rty” 开头的是用然天一大佬的合作音娘三七的语音微调过的模型。微调后的模型更适合模仿对应角色的语音。如果你之前选择的是 “qh” 或者 “rty” 开头的输入音频，选择对应的模型能获得更好的合成效果；若选择的是其他语音，选择作者提供的模型可能效果更佳。

选择声码器

关于【Vocoder】（声码器）的选择，你可以先使用 “g_hifigan” 快速合成音频，试听效果。如果效果不错，再选择 “pretrained”，虽然合成速度慢一些，但能获得更好的效果。

合成音频步骤

合成音频分两步进行。第一步，声学模型合成梅尔图，你可以点击【Synthesize only】来完成。若合成的梅尔图效果清晰，可继续下一步；若不清晰，可多合成几次。第二步，合成音频，点击【Vocode only】即可。当你想更换声码器时，更换后点击【Vocode only】，可避免重复合成梅尔图。【Synthesize and Vocode】则是同时进行这两步操作。

音频查看与导出

合成完毕后，左下角【Toolbox Output】位置会出现新合成的音频，你合成过的音频都会存放在这里。你可以点击【Replay】重听，也可以点击【Export】导出音频。下方的【Audio Output】可选择播放音频的设备。

右侧其他选项说明

【Random seed】：可能是用于固定每次合成中的随机种子。
【Enhance vocoder output】：自动裁剪输入音频中的非语音部分，以获得更好的模仿效果。
【Style/Accuracy】：具体作用不太明确，你可以咨询作者。
【最大句长】：建议拉到最大，否则合成长句时可能会出现截断现象。

常见问题解决

更换声学模型或声码器等情况下点击合成，可能会出现窗口布局改变且合成失败的情况，再次点击合成即可。若出现颤音，重新运行声码器基本能解决问题。

1.2 工具箱 – vc 模式

首先选择、上传或录制两条音频。在【当前】中选一条，点击【选择为被转换的语音输入】；再在【当前】中选另一条，但不要点击【选择为被转换的语音输入】。然后点击【Extract and Convert】，程序会尝试用后选音频的音色来朗读先选音频的内容。

1.3 web 程序

双击运行 web 程序，复制给出的地址，粘贴到浏览器中打开（若无法访问，可尝试访问 127.0.0.1:8080）。其操作顺序和工具箱基本一致，在左侧切换模式，右侧工作区可上传音频或使用示例音频进行合成。

2. 其他细节说明

训练环境

环境中安装的是 CPU 版本的 PyTorch，仅可用于合成，不能用于训练。若你想进行训练，需自行安装 GPU 版本的 PyTorch 以及 CUDA、cuDNN 等环境，这需要你具备更深入的知识。

安装其他包

若你需要安装其他包，可运行文件夹中的【命令行】，然后使用 “python -m pip” 代替原本的 “pip” 命令进行安装。

C++ 编译环境

由于目前有些包包含 C 语言源码，需要编译才能安装。我已将唯一需要编译的包 “ctc_segmentation” 编译完后打包放在 “lib” 文件夹下并完成安装。若以后遇到类似问题，可找有编译环境的人帮你打个编译完的包。

重新获取与更新项目

若你需要重新获取项目，需备份所有位置下的 “.pt” 文件，然后删除源 MockingBird 文件夹，双击【获取项目】，程序会重新从 GitHub 上克隆项目。若要更新项目，双击【更新项目】即可。

GitHub 访问问题

若遇到 GitHub 访问失败的情况，这是偶发现象，重试即可；若还是不行，过段时间再试。

其他模型获取

你可以在 GitHub 项目的 issue 里查找其他网友分享的模型，下载后将 “.pt” 文件放在 “MockingBird\synthesizer\saved_models” 文件夹下即可使用。

MockingBird 与 PaddleSpeech 对比

MockingBird 和 PaddleSpeech 虽都能实现语音克隆功能，但属于不同类型的产品。个人认为 PaddleSpeech 的小样本微调更具实践价值。由于作者较忙等原因，MockingBird 目前开发进度缓慢，且难以获取其他开源数据集。理论上，若数据集充足，MockingBird 的效果至少能和 PaddleSpeech 一样好。PaddleSpeech 有两名全职 TTS 开发者，数据标注、预处理和微调训练都已实现自动化，节省了大量人力。建议有语音克隆需求的小伙伴都尝试一下这两款软件，找到适合自己的解决方案。

现在，你可以按照这个详细教程，尽情使用 MockingBird 离线语音合成中文 TTS 整合包，开启你的语音克隆之旅啦！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

MockingBird 离线语音合成中文 TTS 整合包

MockingBird 离线语音合成中文 TTS 整合包使用秘籍

0. 免安装环境的奥秘

1. 使用指南

下载与解压

1.1 工具箱使用

选择输入音频

选择声学模型

选择声码器

合成音频步骤

音频查看与导出

右侧其他选项说明

常见问题解决

1.2 工具箱 – vc 模式

1.3 web 程序

2. 其他细节说明

训练环境

安装其他包

C++ 编译环境

重新获取与更新项目

GitHub 访问问题

其他模型获取

MockingBird 与 PaddleSpeech 对比

评论(0)

提示：请文明发言取消回复

排行榜展示

最新AI换脸神器VisoMaster让你的创意无限可能，无人直播

字节跳动 LatentSync 小显存也能玩转 AI 口型同步

蚂蚁 MagicQuill 让涂鸦秒变艺术大作

突破硬件限制MagicMirror 开启 AI 换脸新体验

VidMuse专为创作者而生的视频配乐神器

NotaGen 轻松开启古典音乐创作之旅

文章展示

GPT-SoVITS_V4 高效语音合成工具

开源音乐大模型—ACE-Step音跃

文多多AIPPT是指一款基于人工智能技术的PPT生成工具

Dia-1.6B启真实对话音频生成新时代

高精度3D重建新纪元–Hi3DGen高保真2D转3D

川虎 Chat 本地全能 AI 交互终端

MockingBird 离线语音合成中文 TTS 整合包

MockingBird 离线语音合成中文 TTS 整合包使用秘籍

0. 免安装环境的奥秘

1. 使用指南

下载与解压

1.1 工具箱使用

选择输入音频

选择声学模型

选择声码器

合成音频步骤

音频查看与导出

右侧其他选项说明

常见问题解决

1.2 工具箱 – vc 模式

1.3 web 程序

2. 其他细节说明

训练环境

安装其他包

C++ 编译环境

重新获取与更新项目

GitHub 访问问题

其他模型获取

MockingBird 与 PaddleSpeech 对比

评论(0)

提示：请文明发言 取消回复

相关文章

排行榜展示

文章展示

提示：请文明发言取消回复