数据竞赛 | INTERSPEECH2025多语种对话语音语言模型研讨会暨竞赛开启报名!
数据堂联合中国移动、Samsung、Meta等全球多家知名企业,在即将举行的INTERSPEECH2025国际会议上推出多语种对话语音语言模型研讨会,即MLC-SLM Workshop2025。旨在通过举办多语种对话语音语言模型 (MLC-SLM) 挑战赛,以及发布真实的多语种对话语音数据集来促进该方向的研究。
竞赛背景
目前,大语言模型(LLMs)在各种下游任务中均展现出卓越的性能,已成为语言理解和文本生成等任务的基础模型。近年来,研究者们开始关注如何将 LLMs 应用于语音和音频处理任务,如自动语音识别 (ASR)、音频字幕生成以及语音对话系统等新兴领域。
然而,构建强大的基于LLM的语音对话系统,在很大程度上依赖于真实世界的对话语音数据。这些数据涵盖了人类语音交流的多种复杂场景,包括自然停顿、中断、说话者重叠和多样化的对话风格。此类数据的稀缺性,尤其是在多语种环境中,极大地限制了该领域的研究和发展。
真实对话语音数据不仅对于技术进步至关重要,还在构建能够理解多语种和长上下文内容的人工智能系统方面发挥关键作用。对于下一代人机交互系统而言,语音对话是核心的沟通方式,高质量的对话语音数据对于提升其准确性和自然度尤为重要。
因此,本次研讨会旨在通过举办多语种对话语音语言模型 (MLC-SLM) 挑战赛,以及发布真实的多语种对话语音数据集来促进该方向的研究。
赛道设置
MLC-SLM 设立了两个不同的赛道:
多语种对话语音识别
目标为开发基于LLM的多语种ASR模型。参赛者将获得每段对话的真实时间戳标注及说话者标签用于切分语音片段。该任务的重点是优化多语种对话环境下的语音识别准确率。
多语种对话语音日志与识别
目标为开发一个同时进行说话者日志(即识别谁在何时说话),又能进行语音识别(将语音转换为文本)的系统。评估过程中不提供任何先验信息,如真实时间戳标注、预先切分的语音片段、说话者标签等。该任务可以使用基于级联系统或端到端系统的方法。
数据集
训练集
训练集包含11种语言:英语、法语、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、俄语、泰语、越南语。每段录音均由两位说话者就随机分配的主题进行对话。对话自然流畅,使用 iPhone 等设备在安静的室内环境中录制。
英语数据集包含来自不同地区的约500小时录音,包括美国、英国、澳大利亚、印度和菲律宾英语。其他语言各贡献约100小时,总共约1500小时的多语种对话语音数据。
开发集
开发集 (Dev) 与训练集设置相同,但每种语言包含约4小时的录音。任务I和任务II共享相同的开发集。
评估集
每个任务使用不同的评估集,即Eval_1和Eval_2。Eval_1包括真实时间戳标注和说话者标签,使用WER/CER进行评估。Eval_2不提供时间戳或说话者标签,因此需要使用说话者日志系统在识别之前对较长的录音进行分段。
参与者可以通过签署数据使用协议并提交至报名表单来访问数据集。提交后,数据下载链接将发送到您的电子邮件。
参赛日程
2025.03.10 | 注册开放 |
2025.03.15 | 训练数据发布 |
2025.04.01 | 开发集和基线系统发布 |
2025.05.15 | 评估集发布及排行榜开放 |
2025.05.30 | 排行榜冻结,论文提交开始 |
2025.06.15 | 论文提交截止 |
2025.07.01 | 论文录用通知 |
2025.08.18 | 研讨会日期 |
奖项设置
本次竞赛奖金总额为20,000美金。本次比赛优秀团队奖金(每项任务):
第一名:5,000 美金
第二名:3,000 美金
第三名:2,000 美金
注册方式
查看官网竞赛页面:https://m.datatang.com/mcslm(或点击下方阅读原文),下载并填写数据许可协议。
填写谷歌报名表单:https://forms.gle/MyyJZ7kTwFtRorEg9
或腾讯报名表单:https://docs.qq.com/form/page/DTHpBd2hrbGROUURk
通过审核即视为报名成功。
组委会
冯俊兰,IEEE Fellow及首席科学家,中国移动 Eng-Siong Chng,教授,南洋理工大学 谢磊,教授,西北工业大学 Khalid Choukri,秘书长,欧洲语言资源协会 Shinji Watanabe,副教授,卡内基梅隆大学 丰强泽,联合创始人兼数据科学家,Datatang 王大亮,数据科学家,Datatang 刘和鑫,博士后,南洋理工大学 郭鹏程,博士研究生,西北工业大学 穆秉甡,博士研究生,西北工业大学 孙照凯,硕士研究生,西北工业大学
赞助商

期待各参赛团队积极筹备参赛作品,
创造佳绩!