Voice Timbre Attribute Detection Challenge 2025

竞赛简介

本挑战赛以音色属性为对象,关注音色的可解释性,为此构建音色属性检测(Voice Timbre Attribute Detection,vTAD)任务。 该任务旨在辨认两句语音中的话者在音色属性上是否存在特定的强弱差异,其中,音色属性指听者通过听觉感知系统,借助语言对话者音色感知进行描述, 如明亮、粗糙、圆润等。具体地,本任务以一对语音为对象,基于对二者在特定音色属性强度差异假设,通过验证该假设是否成立,实现对音色属性差异的判定。 本挑战赛拟通过该任务加强对语音中话者音色属性的处理和建模研究,加深对音色的理解,进而推动包括可解释话者识别、提示控制的个性化语音合成技术等相关研究领域的发展。

竞赛背景

NCMMSC2025-音色属性强度检测竞赛(vTAD),简称NCMMSC2025-vTAD是第二十届全国人机语音通讯学术会议(NCMMSC2025)的特殊议题之一,由中国科学技术大学、香港理工大学共同发起。本次竞赛的目的是促进对语音中话者音色属性的研究,进而推动相关领域的发展。NCMMSC2025-vTAD对所有个人和单位免费开放。

更多关于比赛基线模型,数据集,评估指标,参赛方式等细节请查看Voice Timbre Attribute Detection 2025 Challenge Evaluation Plan

任务定义

给定分别来自说话者\(\rm {A}\)和\(\rm {B}\)的一对语音片段\({\mathcal O}_{\rm A} \)和\({\mathcal O}_{\rm B} \),以及一个指定的音色属性描述符\(\rm v \), vTAD的目的是去评估\({\mathcal O}_{\rm A} \)中音色属性\(\rm v \)的强度是否强于\({\mathcal O}_{\rm B} \)中\(\rm v \)的强度。 从数学角度而言,关于这种强度差异的假设被定义为\( \mathcal{H}\left(\langle{\mathcal O}_{\rm A},{\mathcal O}_{\rm B}\rangle, {\rm v}\right) \), 其意味着在音色属性\(\rm v \)上,\(O_\text{B}\)的强度强于\({\mathcal O}_{\rm A} \)。具体来说,\(\mathcal{H}\ \in \{0,1\} \), 其中\( \mathcal{H}=1 \)表示假设\(\mathcal{H} \)是正确的,\(\mathcal{H} =0 \)则表示该假设不成立。 这一假设由vTAD算法函数\( {\mathcal F}\left(\langle{\mathcal O}_{\rm A}, {\mathcal O}_{\rm B}\rangle | {\rm v}; \theta\right) \)来判定,其中\(\theta \)为算法参数。

数据集

本次比赛采用VCTK-RVA数据集 [1],该数据集在VCTK公开数据库的基础上,以同性别为基础,标注了不同话者之间明显的音色属性强弱差异。总共包含18种音色属性:明亮,单薄,粗,细,低沉,干净,厚实,磁性,浑浊,沙哑,圆润,平淡,尖锐,干瘪,沉闷,柔和,通透,干哑。该数据库共选用VCTK中来自101个发音人的40892句语音,以\(\{\langle话者\rm {A},话者\rm {B}\rangle,音色属性\rm {v}\}\)为一组发音人标注,表示\(话者\rm {A}\)比\(话者\rm {B}\)在属性\(\rm {v}\)上更强。该数据集共包含6038组发音人音色差异标注数据,其中每组发音人在1至3个音色属性上有强弱标注。以下分别介绍本次挑战赛所采用的训练集和测试集。

训练集:描述话者总数:78个,话者对数:3408对。

测试集:依据测试数据中的话者在训练集中出现与否,分别构建了可见话者测试集和未见话者测试集。其中可见话者集由在训练集中出现过的话者,但并未出现的话者对组成,共包含76个话者,235组话者对,94000组测试语音对;未见话者集由在训练集中未出现的话者组成的话者对构成,共包含由23个话者组成的229组话者对,测试语音组数为91600组。



[1] Sheng Z Y, Liu L J, Ai Y, et al. Voice attribute editing with text prompt[J]. IEEE Transactions on Audio, Speech and Language Processing, 2025.

评估指标

本挑战赛拟以语音句为对象检测话者属性强弱,采用确认和识别两种测试方式,分别以等错误率和准确率为性能评价指标。主办方提供一对语音之间音色的属性强弱假设,如\( \mathcal{H}\left(\langle{\mathcal O}_{\rm A},{\mathcal O}_{\rm B}\rangle, {\rm v}\right) = 1\),确认测试中,参赛者需给出该假设置信度得分,进而结合标注计算等错误率;识别测试中,参赛者需给出该假设是否成立的判定结果,进而与标注进行对比以计算准确率。等错误率越低、准确率越高,性能越好。本挑战赛拟采取匿名排名方式,依据每组参赛者的等错误率和准确率进行排名。

报名方式

每个团队请点击报名表格链接或扫描下方二维码进行一次报名。参与者在报名成功后的24小时内会受到一份确认邮件,如何任何疑问请联系主办方:vTAD2025_org@163.com

示例图片

重要日期

2025.05.15

挑战赛公布,开始注册报名。

2025.05.17

发布基线模型权重及代码,公布VCTK-RVA训练集。

2025.06.27

发布测试集。

2025.07.04

参赛者提交结果的截止日期,提交途径和格式详见 Evaluation Plan

2025.07.11

反馈评估结果,结果公布。

2025.07.25

NCMMSC-vTAD 2025 论文截止日期(仅前5名团队)。

组织者

陈丽萍

陈丽萍

中国科学技术大学

李功益(Kong Aik Lee)

李功益(Kong Aik Lee)

香港理工大学

凌震华

凌震华

中国科学技术大学