灵长类动物的视网膜神经节细胞从感光器接收视觉信息,然后从眼睛传递到大脑。但是,并非所有单元都是一样的-估计有80%的单元在低频下运行并识别精细的细节,而约20%的单元则对快速变化做出了反应。这种生物学上的二分法激发了Facebook AI Research的科学家去追求他们所谓的SlowFast。这是一种用于视频识别的机器学习架构,他们声称在动作分类和镜头检测方面均达到“强大的性能”。
GitHub上提供了Facebook的PyTorch框架PySlowFast 的实现以及受过训练的模型。
正如研究团队在预印本论文中指出的那样,从统计学上讲,慢动作发生得比快动作更频繁,并且可以缓慢刷新对颜色,纹理和照明等语义的识别,而不会影响准确性。另一方面,以较高的时间分辨率(即,使用更多帧)来分析执行的动作(如拍手,挥手,摇动,走路或跳跃)是有益的,因为它们的运动速度快于对象的身份。
这就是SlowFast的用武之地。它包括两条路径,其中一条以较低的帧速率运行,并且刷新速度较慢,经过优化,可捕获少量图像或稀疏帧提供的信息。相反,另一条路径以快速刷新速度和高时间分辨率捕获快速变化的运动。
研究人员断言,通过以不同的时间速率处理原始视频,SlowFast允许其两条途径发展自己的视频建模专业知识。较慢的路径会更好地识别帧中不变或变化缓慢的静态区域,而较快的路径会学会可靠地在动态区域中暂缓动作。
两条路径的信息融合在一起,从而使快速路径的数据通过整个网络中的横向连接馈入慢速路径。这允许慢速路径了解快速路径的结果,并且允许将结果串联到完全连接的分类层中。
为了评估SlowFast的性能,该团队在两个流行的数据集上测试了该模型:DeepMind的Kinetics-400和Google的AVA。前者包括来自成千上万个YouTube视频的短短10秒场景,至少有400个视频代表了400种人类行为。另一方面,AVA包含430个15分钟带注释的YouTube视频以及80个带注释的视觉动作。
SlowFast在这两个数据集上均取得了最先进的结果,比Kinetics-400的最佳top-1得分高出5.1%(分别为79.0%和73.9%)和最佳的top-5得分高出2.7%(分别为93.6%和93.6%) 90.9%)。在AVA上,它还达到了28.3(mAP)的中值平均精度(与21.9 mAP的最新水平相比有显着提高)。有趣的是,但也许不足为奇的是,该论文的合著者指出,慢速路径的计算成本是快速路径的4倍。
研究人员写道:“我们希望这个SlowFast概念将促进视频识别的进一步研究……[我们已经证明] Fast路径可以通过减小其通道容量而变得非常轻巧,但可以学习有用的时间信息以进行视频识别,”研究人员写道。 。“时间轴是一个特殊的维度。本文研究了一种可对比沿该轴速度的架构设计。”