v 友有好的本地文本转语音的框架推荐吗，除了 ebook2audiobook

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 75 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近看到了开源项目 DrewThomasson/ebook2audiobook 非常火，我上班路上最起码有 1 个多小时的开车路程，所以想将一些技术类文章、书籍转换成语音，自己随意听听。

奈何试了几台机器都不行，要么是 Linux 版本太低，要么是一个类似日文的框架没办法安装，报错；然后它的一键脚本也不太适合我，它会自动安装 conda ，然后会干扰到我本来的 Python 环境，就很迷。

用 colab 试了一下，人声还是稍微有点不自然，而且好像有些英文单词，发音是接近日文的发音，及其怪异。

想问问下 v 友们，有没有类似成熟的本地模型？然后朗读声音比较自然的。

文本转语音

本地模型

自然声音

7 条回复 • 2025-01-24 10:06:19 +08:00

neteroster

75 天前

https://funaudiollm.github.io/cosyvoice2/

https://github.com/RVC-Boss/GPT-SoVITS

https://github.com/fishaudio/fish-speech

其中后两个还支持少样本声音克隆，可以搞点自己喜欢的声音样本做克隆生成

neteroster

75 天前

@neteroster #1 CosyVoice 也支持，没记清楚

ijk0

75 天前 via iPhone

https://github.com/santinic/audiblez 最近看到了这个项目，有兴趣可以了解一下

syh2

75 天前

@neteroster #1 已感谢，确实是我想要的，等我试一下。

syh2

74 天前

@ijk0 #3 Thanks ，已在测试安装中

ijk0

71 天前

@syh2 测试效果咋样呀

syh2

71 天前

@ijk0 #6 我试了，对英文的转换效果还行，基本和以前读书的时候的英语听力的感觉差不多，但是停顿非常奇怪，模型生成出来的句子，会有很奇怪的停顿，而且是句子还没结束的时候，这个还是比较影响整个句子的理解的。还没试中文的，貌似直接用那个模型选中文，它直接识别成"chinese character"，然后直接朗读"chinese character"出来了。。。