在本周于预印本服务器Arxiv.org上发表的一篇论文中,来自Google和加州大学伯克利分校的研究人员证明,即使是最好的法医分类器(经过训练可区分真实内容和合成内容的AI系统)也容易受到对抗性攻击,或者利用旨在引起模型错误的输入进行攻击。他们的工作遵循的是加利福尼亚大学圣地亚哥分校的一组研究人员的研究,他们最近证明,可以通过对抗性修改(特别是通过向每个帧中注入信息)使用现有AI生成方法合成的视频来绕过假视频检测器。
这是一个令人不安的是,如果没有一定的新,企图假冒产品化媒体探测器,特别是考虑到企业发展异军突起在deepfake在线内容。伪造的媒体可能被用来在选举中散布观点或将某人牵连到犯罪中,并且已经被滥用以制造 演员的色情材料并欺骗主要的能源 生产者。
研究人员首先解决了比较简单的任务,即评估他们不受限制的访问分类器。他们使用这种“白盒”威胁模型和94,036个样本图像的数据集,对合成图像进行了修改,从而将它们错误地分类为真实图像,反之亦然,从而应用了各种攻击-失真最小化攻击,通用对抗补丁攻击,以及对潜在空间的普遍攻击-对来自学术文献的分类器。
最小化失真的攻击涉及对合成生成的图像添加较小的扰动(即,修改像素的子集),从而导致一个分类器将71.3%的图像(仅2%的像素变化)错误分类为89.7%的图像(4%的图像)错误分类。像素变化。也许更令人震惊的是,在研究人员扭曲了图像像素的7%以下之后,该模型将50%的真实图像分类为伪造的。
对于将图像失真固定为小于指定阈值的最小化损失攻击,分类器的准确性从96.6%降低到27%。通用的对抗补丁攻击更为有效-覆盖在两个伪图像上的可见噪声模式刺激了模型将其分类为真实,可能性为98%和86%。最后的攻击-通用潜在空间攻击,在该团队中,团队修改了图像生成模型所利用的基本表示形式以生成对抗性图像-将分类准确度从99%降低至17%。
接下来,研究人员调查了一种黑匣子攻击,其中目标分类器的内部运作对其未知。他们通过收集AI模型合成的一百万张图像和经过训练的上述模型的一百万张真实图像,然后训练一个单独的系统将图像分类为假图像或真实图像,并生成白盒对抗示例,来开发自己的分类器。源分类器使用最小化失真的攻击。他们报告说,这会将分类器的准确性从85%降低到0.03%,并且当将其应用到流行的第三方分类器时,会将分类器的准确性从96%降低到22%。
“就合成或操纵的内容用于邪恶目的而言,检测此内容的问题本质上是对抗性的。因此,我们认为法医分类人员需要在其防御中建立对抗模型。”研究人员写道。“对敏感系统的攻击不是轻描淡写,或者仅仅是出于运动目的。但是,如果当前部署了这样的取证分类器,则它们提供的错误安全感可能比根本没有部署的情况更糟-不仅伪造的个人资料图片看起来是真实的,现在取证分类器还赋予了其更多的信誉。 。即使法证分类器最终被一个坚定的对手击败,
幸运的是,许多公司已经发布了语料库,希望研究界能够开创新的检测方法。为了加快这种努力,Facebook与Amazon Web Services(AWS),人工智能合作伙伴关系以及来自许多大学的学者一起,率先开展了Deepfake检测挑战赛。挑战赛包括一组视频样本数据集,这些数据集带有标签以指示哪些内容是由AI处理的。 作为FaceForensics基准测试的一部分,Google于2019年9月发布了一系列可视化深层假货,该基准由慕尼黑工业大学和那不勒斯大学费德里科二世共同创建。最近,SenseTime的研究人员与新加坡南洋理工大学合作设计了 DeeperForensics-1.0,他们声称这是用于人脸伪造检测的最大数据集。