#Diverse Temporal Aggregation and Depthwise Spatiotemporal Factorization for Efficient Video Classification

2020年12月的新论文,可以当作是当前的一篇综述。

#介绍

最近的工作大致上有STM、TEA、TSM等,都是在2D ResNet上添加模块。

由于以往的工作都是在骨干网之上的插件式模块,因此受到骨干网的约束。

In short, since previous works are add on style modules on top of the backbone network, they are
constrained under the backbone.

这些三维高效网络只关注于网络结构(上减少计算),而没有考虑时间建模。

these 3D efficient networks only focus on building architectures and do not consider the temporal modeling.

#相关工作

#VoV3D

时间建模在动作识别中起着重要的作用。特别是在缺乏特征语义变化的视频情况下,视频分类网络应该严重依赖于视觉节奏。此外,有必要对长期和短期的时间关系建模,因为短期信息不足以区分视觉节奏变化,如步行和跑步。传统的基于3D CNN的时间建模方法[4,36,35]试图通过输入(帧或特征级金字塔)来建模视觉节奏。

然而,这些方法作为一个外部(即插件)模块,必须在现有的3D骨干网(如I3D[311],这需要更多的参数和计算)的基础上添加单独的网络。为了解决这些挑战,在本文中,我们的目标是提出一种轻量级、高效的视频骨干网,它本身具有时间建模能力,不需要外部模块。为此,我们基于VoVNet[15,16]设计了一种新的三维CNN架构,该架构以较小的成本表达了层次化和多样化的特征表示。

#VoVNet

DenseNet的最开始想法是当前的layer会把当前的所有layer层的输出都整合在一起。

DenseNet的一大问题就是密集连接太重了,而且每个layer都会聚合前面层的特征,其实造成的是特征冗余,而且从模型weights的L1范数会发现中间层对最后的分类层贡献较少,这不难理解,因为后面的特征其实已经学习到了这些中间层的核心信息。这种信息冗余反而是可以优化的方向,据此这里提出了OSA(One-Shot Aggregation)模块,如图1b所示,简单来说,就是只在最后一次性聚合前面所有的layer。这一改动将会解决DenseNet前面所述的问题,因为每个layer的输入channel数是固定的,这里可以让输出channel数和输入一致而取得最小的MAC,而且也不再需要1x1卷积层来压缩特征,所以OSA模块是GPU计算高效的。

所以VoVNet在最后一层汇集前面的所有输入,也达到相似的效果。

The OSA allows the network to represent diverse features by capturing multiple receptive fields in one feature map, which results in the effect of feature pyramid.

#Temporal OneShot Aggregation (T-OSA)

#参考链接