降混后的语音到干净语音
1. 赛题描述
语音修复 (Speech Restoration) 是指通过技术手段对受损、失真、含噪的语音信号进行恢复和增强的过程。在现实场景中,语音信号常常会因为复杂的声学环境、录音设备的限制、信道传输的干扰以及不完美的处理算法等综合因素而质量下降,严重影响语音通信的可靠性和智能语音应用的性能。
本赛题旨在鼓励参赛者探索和实现面向真实世界复杂链路的下一代语音修复算法,以显著提升语音信号的质量、可懂度和听感自然度。本任务要求参赛队伍针对给定的、经历了多重损伤的语音,设计并实现一个统一的修复模型,输出最大程度接近原始质量的纯净语音。
本次挑战赛关注的核心问题与挑战如下:
(1)复合型失真的建模与消除
真实通信链路中的语音损伤是多阶段、多维度的。参赛模型需要具备强大的泛化能力,以应对这些交织在一起的失真类型。具体挑战包括:
声学环境损伤: 由高强度、非平稳的背景噪声(如交通、餐厅人声)和复杂的房间混响共同造成的语音模糊和掩蔽。
信号链路损伤: 在采集和传输过程中引入的非线性失真。这主要包括因增益不当或动态范围限制造成的削波(Clipping),以及为了压缩传输而进行带宽限制(Bandwidth Limitation)和有损编码所引入的编码失真(Codec Artifacts),尤其是在低码率(如8-16 kbps)下,声音会变得“发闷”或出现“水中感”。
处理过程引入的次生失真(Processing Artifacts): 这是一个关键挑战。即使是专业的降噪算法,在处理强噪声和混响后,其输出本身也可能残留或引入新的失真(如“音乐噪声”、相位失真等)。本次赛题的输入信号会模拟这一过程,即部分失真是在一次初步处理后才被引入的,要求模型不仅能处理原始噪声,还要能“修复”不完美处理留下的痕迹。
(2)语音保真度与失真抑制的平衡
一个优秀的修复算法,其目标不仅是“去除不好的”,更是“保留好的”。在极致地抑制上述复合型失真的同时,算法必须最大限度地保留原始说话人的音色、情感和语言细节的完整性。参赛者需要精巧地设计网络结构和损失函数,以避免过度处理,防止引入新的算法失真,最终实现听感上的高保真与自然。
(3)低时延处理需求
为了满足实时通信(如在线会议、VoIP通话)等应用场景,算法的计算效率至关重要。本次挑战赛鼓励参赛者在追求效果的同时,关注模型的复杂度。在部分评测环节,我们会对模型的处理时延(要求单帧处理时间小于50ms)进行考量,这对算法的轻量化设计提出了更高要求。
可以使用任何开源数据集,但需在提交系统时明确所使用的数据集。竞赛组织方将发布一定数量的原始(含噪/失真)语音数据作为开发集,供参赛队伍进行算法的初步开发和验证,最终测试用数据与开发数据分布及特性类似。
2. 数据集与基线系统
竞赛方将提供优质数据资源:
- 纯净语音库 (Clean Speech):包含数千小时、多语种、多说话人的高质量无损语音数据。
-
噪声库 (Noise):包含数百种从真实场景录制的非平稳、多样化的噪声数据。
-
房间冲激响应库 (RIR):包含不同房间大小、不同混响时长的房间脉冲响应(Room Impulse Response)数据。
训练集
开发集
对于数据生成,我们将提供一个可复现的数据合成脚本,同时提供一部分专业降噪算法处理后的音频输出作为失真音频数据。
为帮助参赛者快速验证,竞赛组织方将提供一个官方的开发验证集。该数据集包含经过上述复合型失真(噪声、混响、处理后失真、削波、低码率编码)处理的带标签语音片段。最终用于模型性能排行榜的最终盲测集将对参赛者保持不可见,但其数据分布、失真类型和复杂度与开发验证集保持一致。
竞赛组织方将提供一个基于掩码生成模型的基线模型(类似MaskSR)及其完整的训练和推理代码,鼓励复现我们公布的baseline的结果。
Baseline: GitHub - viewfinder-annn/anyenhance-v1-ccf-aatc: AnyEnhance-based Baseline for the CCF-AATC 2025 Challenge Track 1
3. 关键交附件
初赛:
参赛队伍提供可执行的模型文件,在赛事官方指定环境中进行测试。
参赛队伍需提交方案复杂度和可实现性的文档,文档包括模型运行输出的日志文件,数据说明、参数量、复杂度以及是否满足因果性的分析和说明文件。
复赛:
最终方案的技术报告和答辩材料(含算法原理、方案设计、创新性、各个模型对结果的作用分析等)。
4. 评分规则
初赛采用客观评分制,根据参赛队伍提交结果的客观评测指标进行排序。复赛采用客观评分和主观评分相结合的方式,综合评估算法效果、方案创新性、方案复杂度和可实现性。总分构成为:
一级指标 |
二级指标 |
要求 |
对应分值 |
客观打分
|
客观指标(40%) |
综合修复后音频的WAcc, DNSMOS,PESQ进行客观指标打分,三者权重相同。进行排序,分为4级,评分如下:1级40分,2级32分,3级24分,4级16分
|
40 |
参数量(20%) |
< 10M: 20分
10M~20M: 16分
20M~50M: 12分
50M~100M: 10分
> 100M: 8分
|
20 |
主观打分
|
方案创新性(20%) |
在算法原理或者方案实现上有原创性进展:10~20分
在算法原理或者方案实现上基于现有方法有优化 :0~10分
|
20 |
听感评估(MOS)(20%) |
对所有提交结果进行排序,分为4级,评分如下:1级20分,2级16分,3级12分,4级4分 |
20 |