2020-10-08	周报#07	刘潘

#I. Task achieved last week

#II. Reports

找了一个比较新的厦门大学研究生学位论文 LaTeX 模板模板：https://github.com/zoam/xmu-thesis-grd，自己修改了一些特性。

时序建模的两个问题：short-range motion encoding和long-range temporal aggregation。

前者基本依赖光流来解决，因为计算量很大，且无法满足实时的任务，所以作者提出motion excitation。

后者现有的解决方案有两个：

adopt 2D CNN backbones to extract frame-wise features and then utilize a simple temporal max/average pooling to obtain the whole video representation.
adopt local 3D/(2+1)D convolutional operations to process local temporal window

时空信息在网络的顶端进行融合，再反向传播回来，可能会导致优化困难。所以作者提出multiple temporal aggregation。

结构图

BERT 是在Transformer的结构基础上进行更新，所以主要看了一些基础的知识。

相关链接里前两个写的很好，结合着看可以加深理解。

较现有方法提升了0.8%：

Method	Backbone	Frame	FLOPs × views	Val Top1	Val Top5
PAN Full	ResNet-50 + TSM	8+8×4	67.7G × 1	50.5	79.2
PAN Full with reverse	ResNet-50 + TSM	8+8×4×2	-	51.3	79.9