根据开源社区Hugging Face 10月29日最新榜单数据,SoulX-Podcast模型在发布第二天登顶TTS(Text To Speech,从文本到语音)趋势榜。

此前,Soul App AI团队(Soul AI Lab)联合西北工业大学ASLP@NPU团队和上海交通大学X-LANCE Lab正式开源SoulX-Podcast,该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。
传统语音合成系统在多人、多轮对话场景常面临一些痛点问题,例如上下文衔接不自然;缺少副语言(如笑/叹气)、方言等的可控生成能力,缺少“活人感”;情绪状态无法随对话内容流畅改变,影响沉浸体验等。SoulX-Podcast致力于解决这些核心问题,其在播客场景、通用语音合成或克隆场景下出色表现,以及生动、真实的语音体验也让该模型在开源社区发布后迅速获得关注。
作为全球最大AI开源社区,Hugging Face汇聚了超百万开发者,海量开源模型在此发布,全球活跃开发者们则“用手投票”,让高性能表现、高效易用的模型脱颖而出。SoulX-Podcast在发布第二天快速冲上Hugging Face TTS趋势榜榜首,并且在趋势总榜排名持续上升中。这也证明了行业对AI语音对话的关注,以及模型本身的较高吸引力和讨论度。

在开源社区受到广泛关注之外,SoulX-Podcast在发布后也引发了众多AI从业者、AI发烧友的讨论,以及对国产语音合成开源模型能力的认可。

Hugging Face CEO Clément Delangue 转发相关讨论内容


据了解,Soul AI团队未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升,并加速技术在多样化应用场景与整体生态中的融合落地,为用户带来更加沉浸、智能且富有温度的交互体验,持续提升个体的幸福感与归属感。同时,团队将进一步深化开源生态建设,与全球开发者携手,共同拓展 AI 语音等前沿能力的边界,探索 “AI +社交” 的更多可能。
Demo Page: https://soul-ailab.github.io/soulx-podcast
Technical Report: https://arxiv.org/pdf/2510.23541
Source Code: https://github.com/Soul-AILab/SoulX-Podcast
HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast