Temporal Pyramid Network for Action Recognition
#Temporal Pyramid Network for Action Recognition
近期来看没有参考价值,先把相关链接记录下,省的下次重新找。
20210423
更新:因为要把引用添加到正文中,所以要加很多摘要内容,故重新补充内容。
#摘要
视觉节奏是动作的动态和时间尺度的特征。对不同动作的视觉节奏建模有助于识别它们。以前的作品通常通过对原始视频进行多速率采样和构建输入级帧金字塔来捕捉视觉节奏,这通常需要一个昂贵的多分支网络来处理。在本研究中,我们提出了一个特征级的通用时序金字塔网络TPN
,它可以以即插即用的方式灵活地集成到2D
或3D
骨干网中:TPN
的两个重要组成部分,源特征和融合特征构成了骨干的特征层次,使其能够在不同的节奏下捕获动作实例。TPN
在几个动作识别数据集上也显示了与其他具有挑战性的基线相比的持续改进。具体来说,当配备TPN
时,密集采样的3D ResNet-50
在Kinetics-400
验证集上获得了2%
的增益。进一步的分析还显示,TPN
在视觉节奏差异较大的动作类上获得了大部分改进,验证了TPN
的有效性。
#Temporal Pyramid Network
大部分的网络在输入层面上解决时序信息的提取问题,但这需要单独的骨干网络提供支持,是计算复杂的。作者观察到单个网络中不同深度的特征已经包含了多种的时间节奏,因此提出了时序金字塔网络。