论文概要
近期,华南师范大学软件学院脑机交互与混合智能团队提出了基于注意力机制和自适应时空图卷积网络(AAST-GCN)用于提取有效的长视频人体工程学风险评估的动作表征,以提高该任务的准确率。该网络在多任务的框架下,优化了基于骨骼的时空动作特征提取,使其可挖掘并定位到更有效的与人体工程学风险评估相关的信息,从而在估计任务上有出色的准确率。
该论文被Engineering Applications of Artificial Intelligence(中科院二区top,IF=8.0)录用,题目为《An Attention-based Adaptive Spatial-Temporal Graph Convolutional Network for Long-Video Ergonomic Risk Assessment》。第一作者是华南师范大学软件学院周成菊老师,通讯作者是华南师范大学潘家辉教授。
图 1 AAST-GCN整体框架图
研究背景
人体动作风险评估(Ergonomic Risk Assessment,ERA)是指通过分析一个人动作的姿态来评估他们的动作对其健康的危险程度。该技术可给工业制造业的工人提供及时的风险提醒从而减少由于动作不规范而导致的职业病,同时也可扩展到运动康复等领域。基于骨骼的ERA虽然取得了一定的成果,但是,现存的方法使用时空分离和基于预定义的固定方式对人体动作进行描述,该策略并不能有效的描述人体动作的本质的时空依赖关系。因此,如何构建兼具灵活性和泛化性的人体动作表征是建立有效的动作和人体工程学风险等级的映射的关键。
方法与结果分析
本文提出了一种新的动作评估方法——基于注意力的自适应时空图卷积网络(Attention-based Adaptive Spatial-Temporal Graph Convolutional Network(AAST-GCN))网络,整体模型如图1所示。该网络包含了三个模块,改进的自适应邻接矩阵(Adaptive Adjacency Matrix,AAM),多阶段的时间卷积网络(Multi-Stage Temporal Convolutional Network,MSTCN)和时空交互注意力(Spatial-Temporal Interaction Attention,STIA)模块。最后,将上述模块有机的整合在多任务学习(Multi-Task Learning,MTL)框架内,以动作分割作为辅助任务,进一步提高ERA的准确性。
1. 基于自适应邻接矩阵(AAM)和时空交互注意力(STIA)模块的注意力的自适应时空图卷积网络模块(Attention-based adaptive ST-GCN (AAST-GCN) block)
首先,我们引入了时间卷积网络,并采用交替的建模策略与空间卷积交替来提取符合动作本质的时空信息。其次,提出了一种改进的自适应邻接矩阵(AAM)方案来学习身体关节的各种协调和关系,从而增强建模各种姿势的灵活性。此外,为了使网络关注与风险评估更相关的信息,我们采用了时空交互注意力(STIA)模块。由这些子网络,我们构成了注意力的自适应时空图卷积网络模块(Attention-based adaptive ST-GCN (AAST-GCN) block),如图2所示。
在使用不同的邻接矩阵策略进行消融实验中,我们的AAM比预定义的固定邻接矩阵方法在评估的均方误差MSE最大降低了0.12 (在数据库TUM上)。同时,STIA模块的增加也使得预测的MSE降低了0.031(在数据库TUM上)。这证明了我们所提出的模块能提取更有效的时空特征。
图2 AAST-GCN模块的框架图
2. 结合动作分割的多任务框架
我们工作的主要任务是预测人体工程学风险水平,而在长视频拍摄中,工人有可能完成了多个不同类型的动作,且动作风险水平与动作类别密切相关,为了进一步提高动作评估的准确度,因此我们自然地将动作分割任务作为辅助任务来提高动作评估任务的性能。同时,为了使得动作分割的任务能达到好的效果,我们提出了多尺度空洞卷积来灵活描述多时间尺度的动作,其网络如图3所示。 通过消融实验证明,通过多尺度的时序模块和多任务的策略,评估的均方误差MSE最大降低了0.667 (TUM数据库上)。
图3 多尺度空洞时间卷积网络框架图。
另外,本文通过在两个最常用的人体工程风险评估实验数据库UW-IOM和TUM上与baseline方法的对比实验结果验证,本文所提出的方法AAST-GCN比其他算法都表现更好,证明了其有效性和鲁棒性,如下表1所示。
表1在UW-IOM和TUM数据集上我们的方法(AAST-GCN-MTL)与baseline方法的对比实验结果。
结论
在这项工作中,我们提出了一种用于长视频人体工程学风险评估的网络框架AAST-GCN。我们的方法可以及时提醒人体工程学风险水平较高的工人,使他们能够及时调整不当姿势或及时求助于医疗干预。在我们的网络中,AAM子模块使GCN能够灵活地捕捉关节之间的丰富联系,STIA模块识别嵌入动作中的反映人体工程学风险的关键时空信息。此外,我们提出的多尺度TCN有效地促进了时间表示的不同粒度的提取,这对长视频分割至关重要。通过在多任务学习框架中聚合这些子模块,并对两个公开的UW-IOM和TUM进行的广泛的消融研究和可视化显示了我们子模块的有效性。我们工作为自动化人体工程学风险估计在实际应用方面提供了有力的方法和技术支撑。
撰稿人:曾嘉煜
审稿人:周成菊