在今天在Facebook 博客文章中突出显示的一篇论文中,工程师描述了一种算法-SybilEdge-用于检测在注册时逃避Facebook的反滥用过滤器但没有足够多的人永久滥用的假帐户。目标是通过比较用户将朋友添加到其扩展社交网络的方式来减轻帐户对其他用户发起攻击的能力。
SybilEdge-可以检测不到一周的虚假Facebook帐户,且好友请求少于20个,SybilEdge可以立即用于处理一轮有关冠状病毒大流行的误导性信息的平台。牛津大学路透社新闻研究学院发表的一项分析发现,有33%的人在Twitter,Facebook和YouTube等社交网络上看到了有关COVID-19的某种形式的错误信息。
在设计SybilEdge时,开发团队指出,滥用者需要连接到目标才能发起滥用-也就是说,他们需要找到目标,向他们发送朋友请求并接受请求。也许并不奇怪,Facebook的内部研究表明,非滥用者在选择朋友和这些朋友对他们的朋友请求的回应上都不同:与真实用户的请求相比,假账户的请求被拒绝的频率更高。此外,伪造帐户在选择其好友请求目标时通常会非常小心,以最大程度地提高接受其请求的可能性。
Facebook创建了一个语料库,通过将用户分为两类来训练SybilEdge:那些更有可能接受来自真实帐户的朋友请求的人和那些可能接受虚假帐户请求的人。如果前者拒绝传入的请求,则可以发出信号表明请求者是合法用户。另一方面,如果接受更多假请求的用户接受请求,则表明请求者可能是假的。
SybilEdge分两个阶段工作。首先,通过一段时间内观察上述样本对它进行训练,然后利用Facebook行为和内容分类器的输出,这些输出基于实际滥用标记帐户。这个训练阶段为模型提供了所有必要的参数(即,根据数据估计的配置变量,并且在进行预测时模型需要该参数),以便针对每个好友请求和响应实时运行,并更新请求者为假的概率。
Facebook声称,SybilEdge在检测到平均有15个或更少好友请求的伪造帐户时,准确率超过90%,在检测到5个好友请求的伪造帐户中,准确率达到80%以上。此外,与比较基准不同,它的性能不会随着更多好友请求(超过45个)而下降。
“ SybilEdge帮助我们以可以解释和分析的方式快速识别滥用者。在不久的将来,我们计划研究其他方法,这些方法可以进一步加快对滥用帐户的检测,并比SybilEdge更快地做出自信的决定。我们计划通过混合基于特征的模型和基于行为的模型来实现这一目标。” Facebook写道。
Facebook正在广泛地转向一种称为自我监督学习的AI训练技术,该技术将未标记的数据与少量标记的数据结合使用,以提高学习准确性。自部署以来,两年来,Facebook的深度实体分类(DEC)机器学习框架使该平台上的滥用帐户减少了20%。在一个单独的实验中,Facebook研究人员能够训练一种语言理解模型,该模型 仅需80个小时的数据即可做出更精确的预测,而人工标记的数据只有12,000个小时。