体验ChatTTS :最强开源文本到语音模型
ChatTTS 的效果太惊艳了。
ChatTTS 是一款基于 PyTorch 的开源文本到语音(TTS)模型, 生成的语音质量自然流畅,能够很好地捕捉语音的韵律、语调和情感,听起来就像真人发音一样。
如何在 Windows 环境下安装和使用 ChatTTS?
准备工作
- 安装 Python
首先,你需要在你的系统中安装 Python。
- 创建虚拟环境(可选)
虽然不是必需的,但建议你创建一个虚拟环境来安装 ChatTTS 及其依赖项。这可以避免与系统中已安装的其他 Python 包发生冲突。
打开命令提示符或 PowerShell,运行以下命令创建并激活虚拟环境:
python -m venv venv
venv\Scripts\activate
安装 ChatTTS
- 克隆 ChatTTS 仓库
你可以从 GitHub 上克隆 ChatTTS 仓库:
git clone https://github.com/2noise/ChatTTS.git
- 安装依赖项
进入 ChatTTS 目录,并安装所需的依赖项:
cd ChatTTS
pip install -r requirements.txt
- 获取预训练模型
ChatTTS 需要预训练的模型文件才能运行。由于版权原因,作者没有在仓库中提供预训练模型的下载链接。你需要通过发送电子邮件到 [email protected] 与作者联系,获取预训练模型文件。
- 放置预训练模型
将获取到的预训练模型文件放置在 ChatTTS 目录下的 models
文件夹中。
使用 ChatTTS
- 导入 ChatTTS
打开 Python 解释器或 Jupyter Notebook,导入 ChatTTS 库:
import ChatTTS
- 初始化 Chat 实例
创建一个 Chat
类的实例,并加载预训练模型:
chat = ChatTTS.Chat()
chat.load_models(compile=False)
- 执行语音合成
定义要合成的文本,然后调用 infer
方法进行语音合成:
texts = ["你好,这是一个 ChatTTS 示例。"]
wavs = chat.infer(texts)
- 播放/保存音频
你可以使用 IPython.display.Audio
在 Jupyter Notebook 中播放生成的音频:
from IPython.display import Audio
Audio(wavs[0], rate=24000)
或者使用 torchaudio.save
将音频保存为 WAV 文件:
import torchaudio
torchaudio.save("output.wav", wavs[0], 24000)
Upvoted! Thank you for supporting witness @jswit.