Kokoro-82M是一个先进的文本转语音模型,参数量为8200万,支持将文本转换为音频。
Kokoro-82M模型于2024年12月25日发布,在同年年底前陆续推出了多种声音包。
Kokoro-82M在TTS领域的表现尤为突出,尽管训练数据少于100小时,但在多个对比测试中显示出优异的性能,超越了许多参数更多的模型。
Kokoro-82M的架构属于StyleTTS 2,提供丰富的声音包选择,模型支持Apache 2.0许可证,可以免费使用和修改。
在训练过程中,Kokoro使用了许可的非版权音频数据,通过80GB的A100 GPU实例进行训练。
Kokoro-82M的局限性包括缺乏声音克隆能力,主要训练于长篇朗读和叙述音频,而非对话音频。
用户可以在Hugging Face平台上体验Kokoro的在线演示,进行文本转语音的转换。
