Disentangling and Unifying Graph Convolutionsfor Skeleton-Based Action Recognition

#Disentangling and Unifying Graph Convolutionsfor Skeleton-Based Action Recognition

基于骨架的动作识别的分离统一图卷积

在多尺度算子下无偏的远程联合关系建模
在信息流中无障碍的跨时空捕获复杂的时空依赖性

#Introduction

首先介绍了一下基于人体骨架的行为识别的高效性和广阔前景。

对于骨架图的鲁棒动作识别，一个理想的算法应该不仅仅局限于局部关节连通性，提取多尺度结构特征和长距离依赖关系，因为结构上分离的关节也具有很强的相关性。

现有的方法是通过图卷积的骨架邻接矩阵的高阶多项式，邻接多项式通过使远邻可到达而增加了图卷积的感受野。

但因此就会出现biased weighting problem，即偏加权问题。更高的多项式阶在从远端关节获取信息方面仅具有一点点的效果，因为聚集的特征将由来自局部身体部位的关节控制。这是限制现有多尺度聚合器可扩展性的一个关键缺点。

鲁棒算法的另一个可取特征是能够利用复杂的跨时空联合关系进行动作识别。然而，为了达到这一目的，大多数现有的方法都是使用交错的空间独立（spatial-only）和时间独立（temporal-only）模型，类似于分解的三维卷积。一种典型的方法是首先使用图卷积提取每个时间片的空间关系，然后使用循环的或一维卷积层来模拟时间动态。这种因式分解允许高效的远程建模，它支持跨时空的直接信息流，但是它无法捕获复杂的区域时空联合依赖关系。例如，“站起来”的动作常常同时发生上下身体跨越时空的运动，上半身的运动（前倾）与下半身的运动（站起来）有着强烈的关联。因式分解建模可能无法有效地捕捉到做出预测的有力线索。

我们提出了一个分离的多尺度聚合方案，该方案消除了来自不同邻域的节点特征之间的冗余依赖关系，从而使强大的多尺度聚合器能够有效地捕获人类骨骼上的图形范围的关节关系。
我们提出了一个G3D操作单元。它促进了信息在时空中的直接流动，从而有效地进行特征学习。
将分离的聚集方案与 G3D 集成，提供了一个强大的特征抽取器（MS-G3D），具有跨空间和时间维度的多尺度感受野。时空特性的直接多尺度聚合进一步提高了模型性能。

Disentangling and Unifying Graph Convolutionsfor Skeleton-Based Action Recognition

Contents

#Disentangling and Unifying Graph Convolutionsfor Skeleton-Based Action Recognition

#Introduction

#相关链接