随着视频获取设备和网络的发展,从视频信息中分析和理解人体动作变得越来越重要。人体动作识别应用于视频监控、自动视频标签和人机交互等多个领域,随着家庭服务机器人的发展和普及,对人机交互的实时性提出了越来越高的要求,然而使用机器实时识别人类动作仍是一项具有挑战性的任务。
随着摄像设备的发展,廉价深度摄像头的出现和应用,基于视频的动作识别可以分为基于RGB数据和基于RGB-D数据的动作识别。与传统的RGB数据相比,RGB-D数据提供了额外的体型和结构信息,这些信息已成功应用于从单一深度图中恢复骨骼关节,在深度图中排除了颜色和纹理,使人的检测和分割更加容易。另外,深度传感器对光照变化不敏感,这给黑暗环境下的系统监控带来了很大的好处。根据使用数据的不同,基于深度传感器的动作识别方法又可分为基于深度序列的方法、基于骨骼的方法和基于多模态融合的方法。
其中,基于骨骼的动作识别方法是深度数据研究领域中的一个重点方向。该方法基于人体骨骼序列,利用视频帧间人体关节点的变化来描述动作,包括关节点的位置和外观变化。基于骨骼的方法对光线和背景变化具有更强的鲁棒性,并且有足够的特征来表达运动。同时,骨架数据的规模很小,这使得计算资源可以得到充分的利用。此外,随着微软Kinect相机和视频中人体姿态估计算法的发展,骨骼数据的获取变得更加容易。然而,即使研究人员做了很多工作,仍有许多问题需要进一步的解决,如获取数据的观点多样性、人体尺寸的不同、光照条件强弱和动作执行速度的快慢等都会影响算法的性能,因此,需要对基于骨骼的动作识别算法进行进一步的研究[1]。
基于骨骼的动作识别的发展近况,除了可以从各大计算机视觉顶会和顶刊进行了解外,还可从国内外举办的各个动作识别竞赛中了解到当前动作识别,特别是在自然应用场景下的发展水平。下面罗列出近期的几大竞赛。
2021 年 AVA 挑战赛是 CVPR 2021活动识别国际挑战赛 (ActivityNet)研讨会的一部分。与前一年一样,该挑战赛有两个独立的任务: 用于原子动作检测的AVA-Kinetics和 用于说话人检测的Active Speaker 。今年的 Active Speaker 获胜者将之前的最佳分数提高了 5.6% 的绝对 mAP,几乎减少了 50% 的相对误差,而 AVA-Kinetics 获胜者在已经很强大的基线上提高了 1.05% 的绝对 mAP。
详情见官网:
https://research.google.com/ava/challenge.html
今年 ICCV 2021 举办的多模态视频分析与推理比赛( Multi-Modal Video Reasoning and Analyzing Competition)其中赛道2用到的数据集是UAV-Human[2],UAV-Human 在CVPR2021文章提出的数据集,其中包含67,428个多模式视频序列和119个对象用于动作识别,22,476个帧用于姿势估计,41,290个帧和1,144个身份用于人员重新识别以及22,263个用于属性识别的框架。数据集是由多个城市和农村的飞行无人机在三个月的白天和晚上收集的,因此涵盖了主题,背景,光照,天气,遮挡,相机运动和无人机飞行姿态的广泛多样性。这种全面而具有挑战性的基准应该能够促进基于无人机的人类行为理解的研究,包括动作识别,姿势估计,重新识别和属性识别。
比赛结果已经公布,并且该研讨会时间将安排在2021 年10 月11 日进行。
比赛结果如下:
详情见官网:
https://sutdcv.github.io/multi-modal-video-reasoning
所有视频素材均从2017-2018 年的花样滑冰锦标赛中采集得到。源视频素材中视频的帧率被统一标准化至每秒30 帧,并统一图像大小为1080 * 720 ,保证数据集的相对一致性。之后通过2D姿态估计算法Open Pose,对视频进行逐帧骨骼点提取,最后以.npy格式保存数据集[3]。
大赛官网:
https://aistudio.baidu.com/aistudio/competition/detail/115
参考文献:
[1] 基于图注意力机制的人体骨骼动作识别方法研究 - 中国知网[EB/OL]. /2021-09-22. http://kns-cnki-net-s.libvpn.scnu.edu.cn/kcms/detail/detail.aspx?dbcode=CMFD&dbname=CMFDTEMP&filename=1021044166.nh&uniplatform=NZKPT&v=jT%25mmd2F6A%25mmd2BPtJT%25mmd2FZomjRDghhdIzbKr1sCwIBlx0QeHBYsR3Rybco3ohlTlHECW2GRQ4v.
[2] Li T, Liu J, Zhang W, 等. UAV-Human: A Large Benchmark for Human Behavior Understanding With Unmanned Aerial Vehicles[A]. 2021: 16266–16275.
[3] Liu S, Liu X, Huang G, 等. FSD-10: A Dataset for Competitive Sports Content Analysis[J]. arXiv:2002.03312 [cs], 2020.
撰稿人:王书喜
审稿人:周成菊