#TSM: Temporal Shift Module for Efficient Video Understanding

核心思想

文章实现了在 2D 模型上达到 3D 模型的精度,极大的降低了计算。其核心思想是通过一种shift操作,将时间纬度上的不同帧之间的通道进行偏移,以达到共享时间特征的目的。

然而并不是所有的shift操作都可以达到效果的,虽然shift操作不需要额外的运算但是仍然需要数据的移动,太多的移动会带来延迟。

除此之外,shift是增加时间特征的提取,太多的shift操作也会导致空间特征的提取受到影响。

作者思路

故文章中所提出的是一种改进的shift策略:并不是shift所有的channels,而是只选择性的shift其中的一部分,该策略能够有效的减少数据移动所带来的时间复杂度。

另外TSM并不是直接被插入到从前往后的干道中的,而是以旁路的形式进行,因此在获得了时序信息的同时不会对二维卷积的空间信息进行损害。

同时作者对于一些实时的在线检测提出了相应的模型策略,不同于将第一层下移第二层上移这种:

在线模型

可以有相应的借鉴思路,并且这篇也是上一篇的基准之一。

#实验结果

过程

结果

#相关链接