当前位置:网站首页>机器人强化学习——Learning Synergies between Pushing and Grasping with Self-supervised DRL (2018)
机器人强化学习——Learning Synergies between Pushing and Grasping with Self-supervised DRL (2018)
2022-07-04 23:11:00 【千羽QY】
论文地址:https://ieeexplore.ieee.org/document/8593986
1 简介
model-free 强化学习,Q-learning
方法:训练两个网络,分别预测像素级的push的Q-value 和 像素级的grasp的Q-value;Q-value最高的push或grasp被执行。
每个像素点的push被定义为从左向右推10cm;grasp被定义为以该点为中心,10cm为抓取宽度,水平抓取。
在测试时,图像被旋转16次,分别送入网络,因此可实现16个角度上的push和grasp。
本文采用高维action
,即抓取位姿和推;QT-Opt等方法采用更低维的action
,即末端偏移。
高维action
在全驱动系统
中是可行的,全驱动指物体的运动完全由机械手控制,如本文的抓取;
低维action
更适合于欠驱动系统
,需要根据系统反馈实时调整action,最终达到目标状态。欠驱动指物体的运动由环境和机械手同时决定,如预抓取、沿轨迹推物体等。
2 方法
state:RGB-D图像
action:在第一节描述
grasp reward:抓取成功 reward=1。如果机械手夹爪的张开长度大于阈值,则抓取成功。
push reward:场景图像的差值大于阈值 reward=0.5。该reward鼓励push动作使场景产生变化,但没有明确地使未来的抓取更方便。
Q网络结构:两个网络的结构相同。首先分别将RGB图像和D图像送入并行的DenseNet,然后合并特征,通过卷积和差值上采样输出预测Q-value。
1、如何给push设置reward
答:场景图像的差值大于阈值 reward=0.5。该reward鼓励push动作使场景产生变化,但没有明确地使未来的抓取更方便。
2、如何训练像素级预测网络
答:只对执行action的像素点p计算梯度,其他全为0
3 想法
1、本文方法本质上还是监督学习,只不过把grasp/push的置信度标签换成了reward,本质上一样
边栏推荐
- 45岁教授,她投出2个超级独角兽
- A complete tutorial for getting started with redis: redis usage scenarios
- Examples of time (calculation) total tools: start time and end time of this year, etc
- Principle of lazy loading of pictures
- HMS core unified scanning service
- Selected cutting-edge technical articles of Bi Ren Academy of science and technology
- 推荐收藏:跨云数据仓库(data warehouse)环境搭建,这货特别干!
- P2181 对角线和P1030 [NOIP2001 普及组] 求先序排列
- 如何报考PMP项目管理认证考试?
- Tweenmax emoticon button JS special effect
猜你喜欢
随机推荐
A complete tutorial for getting started with redis: redis usage scenarios
可观测|时序数据降采样在Prometheus实践复盘
Header file duplicate definition problem solving "c1014 error“
Solution record of jamming when using CAD to move bricks in high configuration notebook
Servlet+jdbc+mysql simple web exercise
Photoshop批量给不同的图片添加不同的编号
Notepad++ -- editing skills
Redis:Redis消息的发布与订阅(了解)
Stm32 Reverse Introduction to CTF Competition Interpretation
头文件重复定义问题解决“C1014错误“
Redis introduction complete tutorial: Collection details
MariaDB的Galera集群应用场景--数据库多主多活
QT drawing network topology diagram (connecting database, recursive function, infinite drawing, dragging nodes)
推荐收藏:跨云数据仓库(data warehouse)环境搭建,这货特别干!
How to apply for PMP project management certification examination?
Recommended collection: build a cross cloud data warehouse environment, which is particularly dry!
Galera cluster of MariaDB - dual active and dual active installation settings
After Microsoft disables the IE browser, open the IE browser to flash back the solution
【爬虫】数据提取之JSONpath
mamp下缺少pcntl扩展的解决办法,Fatal error: Call to undefined function pcntl_signal()