#一种基于 2D 时空信息提取的行为识别算法

UCF101数据集上准确率94.46%

采用DenseNet做为网络的架构。

从一个视频片段提取出 16 帧的 64 × 64 × 3 的有时序顺序的图像,组织成 4 × 4 的图像。

图像翻转设计

实验结果

文章没有具体说明执行速度,但是我觉得应该比基于视频的快很多,也相对来讲更有实践性。