SoulX-Podcast-1.7B:Soul 开源的多人语音合成模型 Soul AI Lab 2025-10-29 0 浏览 0 点赞 长文 Soul!没错就是那个 Soul!刚刚也发大模型了!SoulX-Podcast-1.7B 开源的! 看名字估计你已经猜到了,没错,就是一个类似之前微软 VibeVoice 翻车那个多人 TTS(语音转文本)模型,支持多个说话人讲话。 从官方放出的架构图来看,基础模型用的是 Qwen3-1.7B。目前官方放出的效果很不错,不过模型刚上传,连模型卡都还没有,等有 Hugging Face Space 后会有更多测试结果。 参考之前 VibeVoice 的经验,这种模型如果频繁切换说话人,会导致语音合成质量急速变差甚至不可用。希望 Soul 这个模型不会出现问题。 该模型适合播客制作、有声读物、多人对话场景等应用,值得关注其后续表现和社区反馈。 Hugging Face 模型页面 SoulX-Podcast 模型集合 #AI #Qwen #Soul #TTS #多说话人 #开源模型 #播客 #语音合成