IBM的StarNet将可解释的AI引入图像分类

《IBM的StarNet将可解释的AI引入图像分类》

IBM的研究人员提出了StarNet,这是一种端到端的可训练图像分类器,能够对它认为是支持其预测的关键区域进行定位。除了解决视觉分类的任务外,StarNet还支持对弱镜头进行少量镜头检测的任务,因此仅需要少量的嘈杂数据即可达到合理的精度。

StarNet可以提高透明度,并减少自动驾驶汽车和自动工业机器人等新视觉领域所需的培训数据量。通过扩展,它可以减少涉及分类器的AI项目的部署时间,调查显示范围在8到90天之间。

StarNet由连接到提取器的几个分类器模块组成,这两个模块均以元学习的方式进行训练,其中从课程中随机抽取情节。每个情节包括针对给定图像基本类(例如“乌龟”,“鹦鹉”,“鸡”和“狗”)的支持样本和随机查询样本。

StarNet尝试对每对支撑和查询图像进行几何匹配,以将两个图像之间任意形状的区域匹配到局部变形(以适应形状变化)。训练会驱动匹配的区域,以与共享相同类标签的图像对上存在的类实例的位置相对应,从而对实例进行本地化。在本地化后,StarNet会突出显示常见的图像区域,从而深入了解其如何做出预测。

在实验中,研究人员仅使用类别标签进行训练,验证和所有支持图像,这些数据来自包括miniImageNet数据集,CIFAR-FS和FC100在内的数据集,它们均具有100种随机选择的类别。CUB拥有11788张200种鸟类的图像;ImageNetLOC-FS,其中包括331种动物。他们在一张Nvidia K40图形卡上使用了2,000集进行验证,并进行了1,000个测试,因此平均运行时间从每批1.15秒到每批2.2秒。

在少量完成的分类任务中,StarNet的性能要比最新基准高出5%。对于弱监督的少发球物体检测,该模型所获得的结果比所有比较基线所获得的结果“大幅度提高”。该团队将这种强大的性能归因于StarNet通过本地化对对象进行分类的诀窍。

“未来的工作方向包括将StarNet扩展到有效的端到端可微分多尺度处理,以更好地处理非常小的物体。利用StarNet在培训期间做出的位置预测进行迭代优化;并仅使用几个示例将StarNet应用于需要精确定位的其他应用程序,例如视觉跟踪。”

人们通常认为,随着AI系统的复杂性增加,它的解释性总是越来越差。但是研究人员已经开始用Facebook的Captum之类的库挑战这一概念,该库解释了神经网络使用深度学习框架PyTorch以及IBM的AI Explainability 360工具包和Microsoft的InterpretML做出的决策。就Google而言,它最近详细介绍了一个解释图像分类器如何进行预测的系统,而OpenAI详细介绍了一种可视化AI决策的技术。

点赞

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注