Facebook的SlowFast视频分类器AI受灵长类动物眼睛启发

2020年5月1日 0条评论 4,359次阅读 0人点赞

《Facebook的SlowFast视频分类器AI受灵长类动物眼睛启发》

灵长类动物的视网膜神经节细胞从感光器接收视觉信息，然后从眼睛传递到大脑。但是，并非所有单元都是一样的-估计有80％的单元在低频下运行并识别精细的细节，而约20％的单元则对快速变化做出了反应。这种生物学上的二分法激发了Facebook AI Research的科学家去追求他们所谓的SlowFast。这是一种用于视频识别的机器学习架构，他们声称在动作分类和镜头检测方面均达到“强大的性能”。

GitHub上提供了Facebook的PyTorch框架PySlowFast 的实现以及受过训练的模型。

正如研究团队在预印本论文中指出的那样，从统计学上讲，慢动作发生得比快动作更频繁，并且可以缓慢刷新对颜色，纹理和照明等语义的识别，而不会影响准确性。另一方面，以较高的时间分辨率（即，使用更多帧）来分析执行的动作（如拍手，挥手，摇动，走路或跳跃）是有益的，因为它们的运动速度快于对象的身份。

这就是SlowFast的用武之地。它包括两条路径，其中一条以较低的帧速率运行，并且刷新速度较慢，经过优化，可捕获少量图像或稀疏帧提供的信息。相反，另一条路径以快速刷新速度和高时间分辨率捕获快速变化的运动。

《Facebook的SlowFast视频分类器AI受灵长类动物眼睛启发》

研究人员断言，通过以不同的时间速率处理原始视频，SlowFast允许其两条途径发展自己的视频建模专业知识。较慢的路径会更好地识别帧中不变或变化缓慢的静态区域，而较快的路径会学会可靠地在动态区域中暂缓动作。

两条路径的信息融合在一起，从而使快速路径的数据通过整个网络中的横向连接馈入慢速路径。这允许慢速路径了解快速路径的结果，并且允许将结果串联到完全连接的分类层中。

为了评估SlowFast的性能，该团队在两个流行的数据集上测试了该模型：DeepMind的Kinetics-400和Google的AVA。前者包括来自成千上万个YouTube视频的短短10秒场景，至少有400个视频代表了400种人类行为。另一方面，AVA包含430个15分钟带注释的YouTube视频以及80个带注释的视觉动作。

SlowFast在这两个数据集上均取得了最先进的结果，比Kinetics-400的最佳top-1得分高出5.1％（分别为79.0％和73.9％）和最佳的top-5得分高出2.7％（分别为93.6％和93.6％） 90.9％）。在AVA上，它还达到了28.3（mAP）的中值平均精度（与21.9 mAP的最新水平相比有显着提高）。有趣的是，但也许不足为奇的是，该论文的合著者指出，慢速路径的计算成本是快速路径的4倍。

研究人员写道：“我们希望这个SlowFast概念将促进视频识别的进一步研究……[我们已经证明] Fast路径可以通过减小其通道容量而变得非常轻巧，但可以学习有用的时间信息以进行视频识别，”研究人员写道。。“时间轴是一个特殊的维度。本文研究了一种可对比沿该轴速度的架构设计。”

邪恶进制

Facebook的SlowFast视频分类器AI受灵长类动物眼睛启发

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

发表回复取消回复

本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可

发表回复 取消回复

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

发表回复取消回复