WenetSpeech-Yue:21,800小时多维度标注的粤语语音语料库 2025-10-31 0 浏览 0 点赞 长文 粤语语音研究迎来重大突破:WenetSpeech-Yue——迄今最大规模、多维度标注的粤语语音语料库正式开源。 语料规模与覆盖 语料规模达 21,800 小时,涵盖 10 大领域: - 故事 - 娱乐 - 戏剧 - 文化 - Vlog - 评论 - 教育 - 播客 - 新闻 - 等多个领域 真实多样,贴近自然语言环境。 多维度标注 单一 JSON 文件管理元数据,包含: - 音频路径 - 时长 - 文本置信度 - 说话人身份 - 信噪比 (SNR) - DNSMOS 评分 - 年龄 - 性别 - 逐字时间戳 支持持续扩展标签。 基准测试 WSYue-eval 基准测试包括 ASR 与 TTS 两个子任务: - 细分短音频(0-10秒)与长音频(10-30秒) - 覆盖粤语独有的语言现象如代码切换、多域场景 多模型评测 多模型评测对比(Conformer-Yue、Paraformer、SenseVoice、Whisper 等),展现不同架构在粤语识别中的性能差异,助力科研和工业应用选型。 WenetSpeech-Pipe 流水线 实现大规模原始语音采集: - 发言人属性标注(年龄、性别、身份) - 音质评估(SNR、DNSMOS、多频带覆盖) - 为高保真 TTS 和风格可控合成提供坚实基础 ASR 融合技术 多系统 ASR 输出融合: - 采用改进 ROVER 动态对齐和投票机制 - 结合 Qwen3-4B 做上下文精修 - 极大提升转录准确率及发音一致性 开源生态 全流程开源,包含: - 数据集 - 预处理流水线 - 标注工具 - 模型 支持科研复现与二次开发,推动粤语语音技术生态健康发展。 应用场景 - 粤语语音识别(ASR)研究 - 粤语语音合成(TTS)开发 - 多语言代码切换研究 - 说话人识别与验证 - 语音质量评估 - 方言保护与传承 总结 WenetSpeech-Yue 为粤语语音技术研究提供了前所未有的大规模、高质量数据资源,填补了粤语语音语料库的空白,将极大推动粤语 AI 技术的发展。 了解更多:github.com/ASLP-lab/WenetSpeech-Yue GitHub 项目地址 WenetSpeech-Yue 完整数据集和工具 #ASR #TTS #WenetSpeech #开源数据集 #粤语 #语料库 #语音合成 #语音识别