+-
fish-speech
“
一个开源的、达到前沿水平(SOTA)的文本到语音(TTS)项目,旨在利用大型语言模型(LLM)实现高质量的多语言语音合成。
Github地址
https://github.com/fishaudio/fish-speech
文档地址
https://speech.fish.audio/zh/
项目特点
高质量语音合成
- 低错误率
:使用 Seed TTS 评估指标,OpenAudio S1 模型在英语文本上实现了0.008 的词错误率(WER)和0.004 的字符错误率(CER),显著优于之前的模型。
- 情感和语调控制
:支持多种情感、语调和特殊音效标记,例如:
-
基本情感:如
(angry)、(sad)、(excited)等。 -
高级情感:如
(disdainful)、(anxious)、(hysterical)等。 -
语调标记:如
(shouting)、(whispering)等。 -
特殊音效:如
(laughing)、(sobbing)等。 - 多语言支持
:支持英语、中文、日语、韩语、法语、德语、阿拉伯语和西班牙语等多种语言,无需依赖音素。
模型与性能
- 两种模型版本:
- OpenAudio-S1
:4B 参数的旗舰模型,支持完整的功能,可在 Fish Audio Playground 上使用。
- OpenAudio-S1-mini
:0.5B 参数的精简版本,核心功能与 S1 相同,可在 Hugging Face 上使用。
- 高性能
:在 Nvidia RTX 4090 GPU 上,实时因子约为 1:7,支持快速推理。
易用性与部署
- WebUI 推理
:提供基于 Gradio 的 WebUI,支持 Chrome、Firefox、Edge 等浏览器。
- 部署友好
:支持 Linux 和 Windows 系统,易于设置推理服务器,未来将支持 macOS。