+-
最近比较火的语音(TTS)项目,支持多种情感、语调和特殊标记 来增强语音合成

fish-speech

一个开源的、达到前沿水平(SOTA)的文本到语音(TTS)项目,旨在利用大型语言模型(LLM)实现高质量的多语言语音合成。

Github地址

https://github.com/fishaudio/fish-speech

文档地址

https://speech.fish.audio/zh/

最近比较火的语音(TTS)项目,支持多种情感、语调和特殊标记 来增强语音合成

项目特点

高质量语音合成

  • 低错误率

    :使用 Seed TTS 评估指标,OpenAudio S1 模型在英语文本上实现了0.008 的词错误率(WER)0.004 的字符错误率(CER),显著优于之前的模型。

  • 情感和语调控制

    :支持多种情感、语调和特殊音效标记,例如:

    • 基本情感:如(angry)(sad)(excited)等。

    • 高级情感:如(disdainful)(anxious)(hysterical)等。

    • 语调标记:如(shouting)(whispering)等。

    • 特殊音效:如(laughing)(sobbing)等。

  • 多语言支持

    :支持英语、中文、日语、韩语、法语、德语、阿拉伯语和西班牙语等多种语言,无需依赖音素。

模型与性能

  • 两种模型版本:
    • OpenAudio-S1

      :4B 参数的旗舰模型,支持完整的功能,可在 Fish Audio Playground 上使用。

    • OpenAudio-S1-mini

      :0.5B 参数的精简版本,核心功能与 S1 相同,可在 Hugging Face 上使用。

  • 高性能

    :在 Nvidia RTX 4090 GPU 上,实时因子约为 1:7,支持快速推理。

易用性与部署

  • WebUI 推理

    :提供基于 Gradio 的 WebUI,支持 Chrome、Firefox、Edge 等浏览器。

  • 部署友好

    :支持 Linux 和 Windows 系统,易于设置推理服务器,未来将支持 macOS。