Soul AI Lab 发布开源多说话人 TTS 模型 SoulX-Podcast Soul AI Lab 2025-10-30 0 浏览 0 点赞 长文 Soul AI Lab最新发布了开源的多说话人文本转语音(TTS)模型SoulX-Podcast,专为播客风格的多轮多说话人对话语音生成设计,兼具顶尖的单人语音合成性能。该模型支持普通话、英语及多种中文方言(如四川话、河南话、粤语),并集成丰富的语用特征控制,极大提升了语音的自然度与个性化。SoulX-Podcast不仅能连续生成超过90分钟的对话,保证说话人音色稳定和流畅切换,还能根据上下文动态调整语调韵律,呈现真实对话的节奏与情感变化。相比传统单人TTS系统,它在多轮对话生成中表现尤为突出,有效解决了多说话人语音合成中一致性与连贯性的难题。此外,SoulX-Podcast在方言转换和语用细节(如笑声、叹息、清嗓等非语言信息)控制方面表现出色,支持多种方言自由切换且保持声音特质,极大丰富了播客内容的表现力和亲和力。模型采用了完善的语音处理流程,包括语音增强、音频切分、说话人识别及文本转录,确保输入数据的高质量和准确标注。这一技术突破不仅推动了多说话人长篇语音合成的发展,也为智能播客制作、虚拟主持人及多语种交互应用提供了强大支持。SoulX-Podcast展示了AI语音合成向更加真实、多样和个性化方向迈进的新趋势。 SoulX-Podcast 官方页面 SoulX-Podcast 模型详情及资源 #AI #TTS #多说话人 #开源项目 #播客 #语音合成