2020-08-30 周报#03 刘潘

#I. Task achieved last week


  • 阅读 CVPR2020 论文《Disentangling and Unifying Graph Convolutionsfor Skeleton-Based Action Recognition》。
  • 阅读《一种基于 2D 时空信息提取的行为识别算法》。

#II. Reports


#Disentangling and Unifying Graph Convolutionsfor Skeleton-Based Action Recognition

基于骨架的动作识别的分离统一图卷积

创新点:

  1. 在多尺度算子下无偏的远程联合关系建模
  2. 在信息流中无障碍的跨时空捕获复杂的时空依赖性

首先介绍了一下基于人体骨架的行为识别的高效性和广阔前景。

对于骨架图的鲁棒动作识别,一个理想的算法应该不仅仅局限于局部关节连通性,提取多尺度结构特征和长距离依赖关系,因为结构上分离的关节也具有很强的相关性。

现有的方法是通过图卷积的骨架邻接矩阵的高阶多项式,邻接多项式通过使远邻可到达而增加了图卷积的感受野。

但因此就会出现biased weighting problem,即偏加权问题。更高的多项式阶在从远端关节获取信息方面仅具有一点点的效果,因为聚集的特征将由来自局部身体部位的关节控制。这是限制现有多尺度聚合器可扩展性的一个关键缺点。

鲁棒算法的另一个可取特征是能够利用复杂的跨时空联合关系进行动作识别。然而,为了达到这一目的,大多数现有的方法都是使用交错的空间独立(spatial-only)和时间独立(temporal-only)模型,类似于分解的三维卷积。一种典型的方法是首先使用图卷积提取每个时间片的空间关系,然后使用循环的或一维卷积层来模拟时间动态。这种因式分解允许高效的远程建模,它支持跨时空的直接信息流,但是它无法捕获复杂的区域时空联合依赖关系。例如,“站起来”的动作常常同时发生上下身体跨越时空的运动,上半身的运动(前倾)与下半身的运动(站起来)有着强烈的关联。因式分解建模可能无法有效地捕捉到做出预测的有力线索。

  1. 我们提出了一个分离的多尺度聚合方案,该方案消除了来自不同邻域的节点特征之间的冗余依赖关系,从而使强大的多尺度聚合器能够有效地捕获人类骨骼上的图形范围的关节关系。
  2. 我们提出了一个G3D操作单元。它促进了信息在时空中的直接流动,从而有效地进行特征学习。
  3. 将分离的聚集方案与 G3D 集成,提供了一个强大的特征抽取器(MS-G3D),具有跨空间和时间维度的多尺度感受野。时空特性的直接多尺度聚合进一步提高了模型性能。

#相关链接

#Spatiotemporal Fusion in 3D CNNs A Probabilistic View

感觉是纯理论性质的研究…不是很能参考。

时间空间的融合方法有很多种,以往的探究方法是假设一种融合方法,然后进行假设验证。这样做的缺点是:因为训练需要很久的时间,所以验证要花费很长时间。

所以文章通过将融合方法映射到概率空间,通过理论模拟来提高验证效率。

#相关链接

#一种基于 2D 时空信息提取的行为识别算法

UCF101数据集上准确率94.46%

采用DenseNet做为网络的架构。

从一个视频片段提取出 16 帧的 64 × 64 × 3 的有时序顺序的图像,组织成 4 × 4 的图像。

图像翻转设计

实验结果

文章没有具体说明执行速度,但是我觉得应该比基于视频的快很多,也相对来讲更有实践性。

#III. Plan for this week


  • 申请了 UCF101 的数据集,看看先跑一个别人的 demo 试一下。
  • 继续读论文。
  • 2D 时空信息提取的方法,说不定可以从图像的摆放和帧选取等方面进行创新。