当前位置:网站首页>深度学习-论文阅读:动作结构性图卷积网络AS-GCN
深度学习-论文阅读:动作结构性图卷积网络AS-GCN
2022-07-27 16:08:00 【sky_柘】
过去问题:
基于关节间的固定骨架
只捕捉关节间局部的物理依赖性
改进
对ST-GCN的一个较大的改进,都是利用图卷积网络进行行为识别。
不同的是ST-GCN仅仅关注于18个关节点的骨架图上物理相邻关节点之间的关系。而本文在前者的基础上不但关注了物理相邻的关节点,而且更加注重在物理空间上不相邻关节点之间的依赖关系。
解决了以下ST-GCN的缺点:
1.提取通过骨骼直接连接的关节的特征,但忽略了可能包含关键模式的遥远关节
2.例如,在走路时,手和脚紧密相关.虽然ST-GCN尝试将较宽范围的特征与分层GCN进行聚合,但在长时间扩散过程中节点特征可能会减弱.
创新点
1.引入了一个编码器结构,A-link推理模型(AIM),去捕捉特定动作的潜在依赖关系,即直接来自动作的actional links,即利用actional links 去捕捉任何结点之间的潜在关系
2.扩展了现存的骨架图来表达高阶的依赖性,即structural links,即利用 structural links 去捕捉一些 high order features
2.将两种类型的link模块结合成一个广义骨架图,进一步提出了行为-结构图卷及网络,即AS-GCN,,将行为-动作图卷积和时序卷积堆叠在一起生成一个基础构建模块,从而学习空间和时序特征进行行为识别
3.引入了一种额外的预测姿态的机制,通过捕获细节动作信息,来提高分类的准确度。
4.本文提出的AS-GCN在两个大型数据集的表现优于很多现在比较先进的方法; 在另一方面,AS-GCN也能够精确地进行未来姿态的预测;
整体结构
该网络堆叠了多个Actional-Structural卷积和时间卷积.作为一个利用骨架来进行识别的网络,
AS-GCN能够适用于各种环境.这里我们将行为识别作为主要任务,将未来姿态预测作为次要任务,
the prediction head通过保留细节特征来促进自监督学习和提升识别精度

上图就是从一个视频序列中利用本文中新提出的Action-links和Structural-links提取的骨架信息的一个表示。图中节点与节点之间连接的黄线表示人体物理上位置未直接相邻的节点之间存在的依赖性关系。黄线越粗,则这两个节点之间的关系就越强,而节点上红色的圈则代表当前状态下,这一关节点运动的强烈程度,红色圈越大颜色越深,则该节点当前的运动就越强烈。

在网络的后半部分并行为分两个分支,上面的分支功能为行为识别,下面的功能为行为预测,在预测分支中本文创新性的引入了Action-links inference moudle (AIM)。
AIM由一个编码器和一个解码器构成,通过对两个节点之间的Action-link(即就是潜在的隐性依赖关系)的推断,并以此来预测未来节点的位置,即进行未来行为预测。将上一时刻节点的关系数据放进编码器先进行编码,然后再解码器进行解码的一个过程。
Actional Links (A-links)
**思路想法:**在人做一个动作的时候,我们的动作并不一定仅仅是一些邻近结点的合作,很可能是一些在物理结构上没有联系的关节结点的互动。比如拍手,我们的两只手的关节结点在物理上并没有邻接,但是针对拍手这个动作而言,两只手的关联性是非常高的。而为了捕捉到这样的Non-local的联系,我们就引入了Actional links,去通过数据自动去发现一些潜在的有联系的节点。
训练A-links的模块称为:A trainable A-link inference module (AIM),其中主要包括两个部分:encoder 和decoder。
下图是AIM的数据流图,为了在两个关节点之间推测出A-link,关节点特征被串联起来放入AIM的自编码器结构。编码器生成A-link,解码器根据A-link和之前的动作生成未来的姿态预测。
作用:AIM加上之后不仅能够对未来的行为进行预测,而且能够有效的提高行为识别的准确率(猜测应该是反向训练过程中起的作用)
边栏推荐
- 施耐德电气、欧莱雅等企业巨头如何开放式创新?DEMO WORLD世界创新峰会揭秘
- [learning notes] solutions to hot account problems
- How to solve the error of ora-00955 when Oracle modifies the primary key
- Salesforce dynamic dashboard dynamic reports, limitations and Solutions
- 联发科首款5G SoC来了!A77+G77+APU3.0,11月26日正式发布!
- hutool- 数组工具
- JS中的冒泡排序
- Convolutional neural network -- Introduction to FPN (feature pyramid networks)
- Telecommuting can be easily realized in only three steps
- Exciting collection of new features released by salesforce
猜你喜欢

Operation of simulated examination platform for 2022 low voltage electrician examination questions

Personal understanding of convolution calculation process of convolution neural network

WebDriverException( selenium.common.exceptions.WebDriverException: Message: ‘chromedriver‘ executabl

Big gap? Requirements and conditions for candidates with different academic qualifications to take the postgraduate entrance examination

What every Salesforce developer should know about Dates and Times in Apex

Class not found: “com.parkManagement.dao.DaoTest 测试找不到测试类

Convolutional neural network -- Translation of yolov2 (yolo9000) papers

面试常见问题一二

Machine learning: IOU of concept understanding

Dbeaver connection MySQL error: the server time zone value 'Ö Ð¹ ú±ê ×¼ ʱ ¼ ä‘ is unrecognized or represents more than
随机推荐
With the right tools, CI achieves twice the result with half the effort
Yanrong technology was selected as Beijing's "specialized and innovative" in 2022 to lead hybrid cloud file storage
Using the vlookup method in salesforce validation rule
Convolutional neural network -- Translation of yolov2 (yolo9000) papers
类的六大关系——依赖和关联的区别
Bug records using distributed framework WCF
小米CC9 Pro拆解:后置五摄成本是骁龙855数倍!
Know things by learning | build a real-time anti plug-in mechanism from 0 to 1 to supplement the offensive and defensive power of mobile games in multiple dimensions
多线程导入数据并生成错误文件用redis存储
年终总结模板
Interview FAQs 12
给程序界面增加音乐,加载背景照片。
又一个时代的终结!
ts学习笔记-class
【学习笔记】lombok的@Builder注解
Code compliance: five reasons why developers use helix QAC
Prevent SQL injection
携手三星,vivo将推Exynos980双模5G手机!
面试常见问题一二
1542. 找出最长的超赞子字符串 哈希+状态压缩