谷歌今天宣布发布了一个新的数据集,即免费通用声音分离数据集(简称FUSS),旨在支持AI模型的开发,该模型可以将不同的声音与录制的混合音分开。用例可能无穷无尽,但是如果要商业化,FUSS可以用于公司环境中以从电话会议中提取语音。
紧接Google和瑞士Idiap研究所进行的一项研究之后,该研究描述了两种机器学习模型(说话者识别网络和频谱图掩蔽网络),它们一起“显着”降低了多扬声器的语音识别词错误率(WER)信号。在其他地方,包括阿里巴巴和微软在内的科技巨头已经投入大量时间和资源来解决声音分离问题。
正如Google Research的科学家John Hershey,Scott Wisdom和Hakan Erdogan在博客文章中所解释的那样,大多数声音分离模型都假设混合物中的声音数量是静态的,并且它们会分离少量声音类型的混合物(例如语音与非语音)或相同声音类型的不同实例(例如第一说话者与第二说话者)。FUSS数据集将重点转移到更广泛的问题上,即将可变数量的任意声音彼此分离。
为此,FUSS数据集包括各种声音,逼真的房间模拟器以及将这些元素混合在一起的代码,以提供具有真实性的多源,多类音频。从FreeSound.org获得的音频片段经过过滤后,排除了无法与人类分离的音频片段,Google研究人员编辑了23小时的音频,其中包含12,377种可用于混合的声音,从中产生了20,000种用于训练AI模型的混合物,1,000种用于验证它的混合物,以及用于评估它的1,000种混合物。
研究人员表示,他们使用Google的TensorFlow机器学习框架开发了自己的房间模拟器,该框架生成具有“频率相关”反射特性的箱形房间的脉冲响应,并给出了声源和麦克风位置。FUSS随附了用于每个音频样本的预先计算的房间脉冲响应以及混合代码。这是基于预训练,基于蒙版的分离模型的补充,该模型可以高精度地重建多源混合物。
Google小组计划发布房间模拟器的代码,并扩展该模拟器,以解决更昂贵的声学特性,以及具有不同反射特性和新颖房间形状的材料。“我们的希望是[FUSS数据集]将降低进行新研究的障碍,尤其是将允许快速迭代和将其他机器学习领域的新技术应用到声音分离挑战中,” Hershey,Wisdom和Erdogan写道。
FUSS数据集可在GitHub上获得,并将在DCASE挑战中用作电气和电子工程师协会(IEEE)的声音事件检测和分离任务的组成部分。发行的声音分离模型将作为本次比赛的基准,并作为展示未来实验进展的基准。