ChatTTS 是专为对话场景设计的语音生成模型,专门用于大型语言模型 (LLM) 助手的对话任务,以及对话式音频和视频介绍等应用。它支持中英文,通过使用约 10 万小时的中英文数据进行训练,ChatTTS 在语音合成方面表现出很高的质量和自然度。
多语言支持
ChatTTS 的主要功能之一是支持多种语言,包括英语和中文。这使得它能够服务于广泛的用户并克服语言障碍。
大数据训练
ChatTTS 使用大量数据进行训练,约 1000 万小时的中文和英文数据。经过大量训练,语音合成质量高、自然。
对话任务兼容性
ChatTTS 非常适合处理通常分配给大型语言模型 LLM 的对话任务。它可以生成对话响应,并在集成到各种应用程序和服务中时提供更自然、更流畅的交互体验。
开源计划
项目团队计划开源已训练的基础模型。这将使社区中的学术研究人员和开发人员能够进一步研究和开发该技术。
控制与安全
团队致力于提高模型的可控性,添加水印,并与LLM集成。这些努力确保了模型的安全性和可靠性。
易于使用
ChatTTS 为用户提供易于使用的体验。它只需要输入文本信息,即可生成相应的语音文件。这种简单性为有语音合成需求的用户提供了便利。
Windows 10+,Ubuntu 20.04+
Git, Python 3.9+
音频库 FFmpeg 或 SoundFile
Nvidia GPU,配备 4GB+ VRAM,CUDA 11.x 或 12.x
以下是安装和使用 ChatTTS 的步骤。请注意,具体过程可能因您使用的特定 ChatTTS 应用程序或库而异。
从 GitHub repo 下载 ChatTTS 项目:https://github.com/2noise/chattts.
git clone https://github.com/2noise/ChatTTS
开始之前,请确保已安装必要的软件包。您将需要 torch、soundfile 和 ChatTTS。如果尚未安装它们,可以使用 pip 安装:
pip install torch soundfile ChatTTS
导入脚本所需的库,如ChatTTS 和 soundfile
import soundfile import ChatTTS
创建ChatTTS类的实例并加载预先训练的模型。
chat = ChatTTS.Chat() chat.load()
定义要转换为语音的文本,请替换成您想要的文字内容。
texts = ["您好,欢迎来到 ChatTTS!",]
使用 infer 方法从文本生成语音。设置 use_decoder=True 以启用解码器。
wavs = chat.infer(texts, use_decoder=True)
使用 soundfile 保存生成的音频,并将采样率设置为 24,000 Hz。
soundfile.write("output1.wav", wavs[0][0], 24000)
以下是完整的脚本,供参考:
import soundfile import ChatTTS # 初始化 ChatTTS chat = ChatTTS.Chat() chat.load() # 定义需要转换为语音的文本 texts = ["Hello, welcome to ChatTTS!",] # 生成语音 wavs = chat.infer(texts, use_decoder=True) # 保存生成的音频 soundfile.write("output1.wav", wavs[0][0], 24000)
GPU物理服务器 - P1000
GPU物理服务器 - GTX 1650
GPU云服务器 - A4000
GPU物理服务器 - RTX 2060
GPU物理服务器 - RTX 3060 Ti
GPU物理服务器 - V100
GPU物理服务器 - A5000