Gate-Shift Networks for Video Action Recognition

#Gate-Shift Networks for Video Action Recognition

用于行为识别的Gate-Shift网络

在实践中，由于涉及大量的参数和计算，在缺乏足够大的数据集进行大规模训练的情况下，C3D可能表现不佳。

文章提出了一种Gate-Shift Module(GSM)，将2D-CNN转换为高效的时空特征抽取器。

通过GSM插件，一个2D-CNN可以适应性地学习时间路由特性并将它们结合起来，并且几乎没有额外的附加参数和计算开销。

传统的方法演变：C3D -> 2D spatial + 1D temporal -> CSN -> GST（与分离信道组上的二维和三维卷积并行空间和时空交互建模） -> TSM（时域卷积可以被限制为硬编码的时移，使一些信道在时间上向前或向后移动）

所有这些现有的方法都学习具有硬连线连接和跨网络传播模式的结构化内核。
在网络中的任何一点上都没有数据依赖的决策来选择地通过不同的分支来路由特性，分组和随机的模式是在设计之初就固定的，并且学习如何随机是具有组合复杂性的。

From the experiments we conclude that adding GSM to the branch with the least number of convolution layers performs the best.

GSM通过一种门移模块，来让网络自己学习TSM中的shift操作，并通过实验证明在卷积层最少的分支上添加GSM模块表现最好。