TSM Temporal Shift Module for Efficient Video Understanding
#TSM: Temporal Shift Module for Efficient Video Understanding
文章实现了在 2D 模型上达到 3D 模型的精度,极大的降低了计算。其核心思想是通过一种shift
操作,将时间纬度上的不同帧之间的通道进行偏移,以达到共享时间特征的目的。
然而并不是所有的shift
操作都可以达到效果的,虽然shift
操作不需要额外的运算但是仍然需要数据的移动,太多的移动会带来延迟。
除此之外,shift
是增加时间特征的提取,太多的shift
操作也会导致空间特征的提取受到影响。
故文章中所提出的是一种改进的shift
策略:并不是shift
所有的channels
,而是只选择性的shift
其中的一部分,该策略能够有效的减少数据移动所带来的时间复杂度。
另外TSM
并不是直接被插入到从前往后的干道中的,而是以旁路的形式进行,因此在获得了时序信息的同时不会对二维卷积的空间信息进行损害。
同时作者对于一些实时的在线检测提出了相应的模型策略,不同于将第一层下移第二层上移这种:
可以有相应的借鉴思路,并且这篇也是上一篇的基准之一。
#实验结果
#相关链接
- https://github.com/mit-han-lab/temporal-shift-module
- 《TSM: Temporal Shift Module for Efficient Video Understanding》学习小记
- Temporal Shift Module
- TSM:Temporal Shift Module for 视频理解
- 【视频理解论文】——TSM:Temporal Shift Module for Efficient Video Understanding
- TSM:Temporal Shift Module for 视频理解
- Temporal Shift Module for Efficient Video Understanding