Microsoft团队将如何使用AI过滤掉视频通话中的打字,吠叫和其他噪音

《Microsoft团队将如何使用AI过滤掉视频通话中的打字,吠叫和其他噪音》

微软上个月宣布,Teams,其与Slack,Facebook’s Workplace和Google的Hangouts Chat的竞争对手,每天的活跃用户已超过4400万。这个里程碑掩盖了其“今年晚些时候”发布的一些新功能。最简单明了:一种手动举报功能,表明您有话要说;离线和低带宽支持,即使您的互联网连接不畅或没有互联网连接,也可以阅读聊天消息并撰写回复;还可以选择将聊天弹出到单独的位置窗口。但是其中一项功能,即实时噪声抑制功能脱颖而出-微软演示了AI如何在通话过程中最大程度地减少分散背景噪声。

我们都去过那里。您要求某人静音多少次或从嘈杂的地方搬来几次?实时噪声抑制将过滤掉在会议中用键盘打字,沙沙作响的沙沙袋(如您在上面的视频中看到的)和在后台运行的吸尘器。AI将实时消除背景噪音,因此您只能在通话中听到语音。但是它是如何工作的呢?我们与Microsoft Teams小组项目经理Robert Aichner进行了交谈,以找出答案。

随着冠状病毒危机迫使数百万人在家学习和工作,协作和视频会议工具的使用呈爆炸式增长。Microsoft正在将Teams作为针对企业和消费者的解决方案,作为其Microsoft 365订阅套件的一部分。该公司依靠其机器学习专业知识来确保AI功能是其最大的特色之一。当它最终到来时,实时背景噪声抑制将为充满分散注意力的企业和家庭带来福音。此外,Microsoft如何构建此功能还对其他利用机器学习的公司具有指导意义。

固定噪声与非固定噪声

当然,多年来,Microsoft Teams,Skype和Skype for Business应用程序中一直存在噪声抑制功能。其他通信工具和视频会议应用程序也具有某种形式的噪声抑制。但是这种噪声抑制涵盖了固定噪声,例如在后台运行的计算机风扇或空调。传统的噪声抑制方法是查找语音停顿,估计噪声的基线,并假设连续的背景噪声不会随时间变化,然后将其过滤掉。

展望未来,Microsoft团队将抑制非平稳的噪音,例如狗吠或有人关门。“那不是固定的,”艾希纳解释说。“您无法估计语音暂停。现在,机器学习可以让您做的是创建具有大量代表性噪声的大型训练集。”

实际上,微软今年早些时候在GitHub上公开了其培训集,“以促进该领域的研究社区的发展。” 虽然第一个版本是公开可用的,但是Microsoft正在积极致力于扩展数据集。公司发言人证实,作为实时噪声抑制功能的一部分,数据集中的某些类别的噪声不会在通话中被滤除,包括乐器,笑声和唱歌。

微软不能简单地隔离人声,因为其他噪音也会以相同的频率发生。在语音信号的频谱图上,不需要的噪声出现在语音之间以及与语音重叠的间隙中。因此,几乎不可能滤除噪声-如果您的语音和噪声重叠,则无法区分两者。取而代之的是,您需要事先训练神经网络了解噪声和语音的外观。

语音识别与噪声抑制

为了阐明自己的观点,Aichner将用于噪声抑制的机器学习模型与用于语音识别的机器学习模型进行了比较。为了进行语音识别,您需要记录大量用户在对着麦克风讲话,然后让人们通过写下所说的内容来标记语音数据。而不是将麦克风输入映射到书面单词,而是在噪声抑制中,您尝试从嘈杂的语音转换为干净的语音。

艾希纳说:“我们训练了一个模型来理解噪音和语音之间的差异,然后该模型试图仅保持语音。” “我们有培训数据集。我们采用了数千种不同的扬声器和100多种噪音类型。然后我们要做的是将没有噪音的干净语音与噪音混合在一起。因此,我们模拟麦克风信号。然后,您还向模型提供清晰的语音作为基本事实。因此,您要询问模型,“请从这些嘈杂的数据中提取此干净信号,这就是它的外观。” 这就是您在监督学习中训练神经网络的方式,在那里您基本上有一些基本事实。”

对于语音识别,地面真相就是对麦克风说的话。对于实时噪声抑制,地面真理是没有噪声的语音。通过提供足够大的数据集(在这种情况下为数百小时的数据),Microsoft可以有效地训练其模型。“即使我的声音不是训练数据的一部分,它也可以使我的声音泛化并降低噪音,” Aichner说。“实时地说,当我讲话时,模型可以从中提取干净的语音,然后将其发送给远程人员,这是一种噪音。”

挑战性

将功能与语音识别进行比较,即使实时地实现噪音抑制声音也更加容易实现。那么为什么以前没有做过呢?微软的竞争对手可以快速重新创建它吗?Aichner列出了构建实时噪声抑制的挑战,包括查找代表性数据集,构建和缩小模型以及利用机器学习专业知识。

代表性数据集

我们已经谈到了第一个挑战:代表性数据集。团队花费了大量时间来弄清楚如何产生声音文件,以例证典型通话中发生的情况。

他们使用有声读物来代表男性和女性的声音,因为“语音特征在男性和女性的声音之间确实有所不同”。他们将YouTube数据集与带有标签的数据一起使用,这些数据指定了录制内容,例如键入内容和音乐。然后,Aichner的团队使用合成器脚本以不同的信噪比将语音数据和噪声数据进行组合。通过放大噪音,他们可以模仿通话中可能发生的不同现实情况。

但是有声读物与电话会议完全不同。那会不会影响模型,从而不会影响噪声抑制?

“那是一个好点,”艾希纳承认。“我们的团队也做了一些录音,以确保我们不仅在训练自己生成的合成数据方面,而且还在实际数据上起作用。但是,要获得那些真实的录音肯定更困难。”

隐私权限制

不允许Aichner的团队查看任何客户数据。此外,Microsoft内部有严格的隐私准则。“我不能只是简单地说,’现在我记录每次会议。’”

因此,该团队无法使用Microsoft Teams通话。即使他们可以(例如,如果某些Microsoft员工选择参加会议记录),当确实产生令人分心的噪音时,仍然会有人要记下来。

“因此,这就是为什么我们现在需要做一些小规模的工作,以确保我们使用各种设备和扬声器等来收集这些真实的录音,” Aichner说。“然后我们要做的就是将其作为测试集的一部分。因此,我们有一个测试集,我们认为它更能代表真实的会议。然后,我们看看是否使用特定的训练集,这对测试集的效果如何?所以理想情况下是的,我希望有一个训练集,它是所有Teams的录音,并且有人们正在听的各种噪音。只是通过获取其他一些开源数据集,我无法轻易获得相同数量的相同数量的数据。”

我再次提出了要点:使用Teams记录Microsoft员工的选择性加入计划会对功能产生什么影响?

“您可能会说它会变得更好,”艾希纳说。“如果您有更具代表性的数据,它可能会变得更好。因此,我认为这是一个好主意,可以在将来查看我们是否可以进一步改进。但我认为,到目前为止,即使仅获取公共数据,它的效果也很好。”

云与边缘

下一个挑战是弄清楚如何构建神经网络,模型架构应该是什么以及如何迭代。机器学习模型经历了很多调整。这需要大量的计算。Aichner的团队当然依赖Azure,并使用许多GPU。即使进行了所有计算,使用大量数据训练大型模型也可能需要花费几天的时间。

“很多机器学习都发生在云中,”艾希纳说。“因此,例如,对于语音识别,您对着麦克风讲话,然后将其发送到云中。云具有巨大的计算能力,然后您可以运行这些大型模型来识别语音。对于我们来说,由于它是实时通信,因此我需要处理每个帧。假设是10或20毫秒帧。我现在需要在这段时间内进行处理,以便我可以立即将其发送给您。我无法将其发送到云端,等待一些噪声抑制,然后再发送回去。”

对于语音识别,利用云可能是有意义的。对于实时噪声抑制,这是一门开门红。一旦有了机器学习模型,就必须缩小它以适合客户。您需要能够在典型的电话或计算机上运行它。仅针对拥有高端机器的人的机器学习模型是没有用的。

推动加工到边缘

机器学习模型应该存在于边缘而不是云中的另一个原因是。Microsoft希望限制服务器的使用。有时,方程式中甚至没有服务器。对于Microsoft Teams中的一对一呼叫,呼叫设置通过服务器进行,​​但是实际的音频和视频信号包直接在两个参与者之间发送。对于组呼或预定的会议,图片中有一个服务器,但是Microsoft最小化了该服务器上的负载。为每个呼叫执行大量服务器处理会增加成本,并且每增加一个网络跃点都会增加延迟。从成本和延迟的角度来看,在边缘进行处理会更加高效。

“您想确保将尽可能多的计算推送到用户的端点,因为这实际上并没有涉及任何成本。您已经拥有笔记本电脑,PC或手机,所以现在让我们进行一些其他处理。只要您不使CPU过载,那应该没问题。” Aichner说。

我指出这是有成本的,尤其是在未插入的设备上:电池寿命。他说:“是的,电池寿命,我们显然也在关注这一点。” “我们不希望您现在的电池寿命大大降低,只是因为我们增加了一些噪音抑制功能。这绝对是我们发货时的另一个要求。我们需要确保我们不会在那里退缩。”

下载大小和面向未来

团队不仅要考虑回归,而且还要考虑未来的发展。因为我们在谈论机器学习模型,所以工作永无止境。

Aichner说:“我们正在努力构建一种将来具有灵活性的产品,因为在发布第一个功能后我们将不会停止投资于噪声抑制。” “我们希望使其越来越好。也许对于某些噪声测试,我们的表现不尽如人意。我们绝对希望有能力改善这一点。每当我们认为我们有更好的产品时,Teams客户都将能够下载新模型并提高质量。”

该模型本身的时钟频率为几兆字节,但不会影响客户端本身的大小。他说:“这也是我们的另一个要求。当用户在手机,台式机或笔记本电脑上下载应用程序时,您希望最小化下载大小。您想帮助人们尽快发展。”

艾希纳说,“仅针对某些型号”在下载中增加兆字节是不会实现的。安装Microsoft Teams后,在后台稍后将下载该模型。“这也使我们在将来变得更加灵活,我们可以做更多的事情,拥有不同的模型。”

《Microsoft团队将如何使用AI过滤掉视频通话中的打字,吠叫和其他噪音》

机器学习专业知识

所有以上这些都需要最后一个组成部分:人才。

“您还需要具备机器学习的专业知识,才能知道您想对这些数据进行什么操作,” Aichner说。“这就是为什么我们在这个智能通信小组中创建了这个机器学习团队的原因。您需要专家知道他们应该如何处理这些数据。什么是正确的模型?深度学习具有非常广泛的意义。您可以创建许多不同类型的模型。我们在世界各地有多个Microsoft研究中心,并且那里也有很多音频专家。我们正在与他们紧密合作,因为他们在深度学习领域拥有很多专业知识。”

数据是开源的,可以进行改进。需要大量计算,但任何公司都可以简单地利用公共云,包括领先的Amazon Web Services,Microsoft Azure和Google Cloud。因此,如果另一家拥有视频聊天工具的公司拥有合适的机器学习者,他们能否实现这一目标?

艾希纳说:“答案可能是肯定的,类似于几家公司如何获得语音识别。” “他们有一个语音识别器,其中还涉及很多数据。建立模型还需要大量的专业知识。因此,大公司正在这样做。”

艾希纳(Aichner)认为,由于规模庞大,微软仍然具有很大的优势。他说:“我认为价值就是数据。” “我们将来要做的就像您所说的,有一个计划,Microsoft员工可以给我们提供足够多的真实团队电话,以便我们对客户的实际状况,所遇到的问题进行更好的分析。面对,并对其进行更多定制。”

点赞

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注