当前位置:网站首页>机器人强化学习——Learning Synergies between Pushing and Grasping with Self-supervised DRL (2018)
机器人强化学习——Learning Synergies between Pushing and Grasping with Self-supervised DRL (2018)
2022-07-04 23:11:00 【千羽QY】
论文地址:https://ieeexplore.ieee.org/document/8593986
1 简介
model-free 强化学习,Q-learning
方法:训练两个网络,分别预测像素级的push的Q-value 和 像素级的grasp的Q-value;Q-value最高的push或grasp被执行。
每个像素点的push被定义为从左向右推10cm;grasp被定义为以该点为中心,10cm为抓取宽度,水平抓取。
在测试时,图像被旋转16次,分别送入网络,因此可实现16个角度上的push和grasp。
本文采用高维action,即抓取位姿和推;QT-Opt等方法采用更低维的action,即末端偏移。
高维action在全驱动系统中是可行的,全驱动指物体的运动完全由机械手控制,如本文的抓取;
低维action更适合于欠驱动系统,需要根据系统反馈实时调整action,最终达到目标状态。欠驱动指物体的运动由环境和机械手同时决定,如预抓取、沿轨迹推物体等。
2 方法

state:RGB-D图像
action:在第一节描述
grasp reward:抓取成功 reward=1。如果机械手夹爪的张开长度大于阈值,则抓取成功。
push reward:场景图像的差值大于阈值 reward=0.5。该reward鼓励push动作使场景产生变化,但没有明确地使未来的抓取更方便。
Q网络结构:两个网络的结构相同。首先分别将RGB图像和D图像送入并行的DenseNet,然后合并特征,通过卷积和差值上采样输出预测Q-value。
1、如何给push设置reward
答:场景图像的差值大于阈值 reward=0.5。该reward鼓励push动作使场景产生变化,但没有明确地使未来的抓取更方便。
2、如何训练像素级预测网络
答:只对执行action的像素点p计算梯度,其他全为0
3 想法
1、本文方法本质上还是监督学习,只不过把grasp/push的置信度标签换成了reward,本质上一样
边栏推荐
- A complete tutorial for getting started with redis: understanding and using APIs
- 香港珠宝大亨,22亿“抄底”佐丹奴
- 取得PMP證書需要多長時間?
- 高配笔记本使用CAD搬砖时卡死解决记录
- MySQL数据库备份与恢复--mysqldump命令
- Notepad++ -- editing skills
- A complete tutorial for getting started with redis: redis usage scenarios
- S32 design studio for arm 2.2 quick start
- 【ODX Studio编辑PDX】-0.2-如何对比Compare两个PDX/ODX文件
- Qualcomm WLAN framework learning (30) -- components supporting dual sta
猜你喜欢

Font design symbol combination multifunctional wechat applet source code

The initial trial is the cross device model upgrade version of Ruijie switch (taking rg-s2952g-e as an example)

企业里Win10 开启BitLocker锁定磁盘,如何备份系统,当系统出现问题又如何恢复,快速恢复又兼顾系统安全(远程设备篇)

如何报考PMP项目管理认证考试?
![[sword finger offer] questions 1-5](/img/54/b70d5290978e842939db99645c6ada.png)
[sword finger offer] questions 1-5

SPH中的粒子初始排列问题(两张图解决)

ECCV 2022 | Tencent Youtu proposed disco: the effect of saving small models in self supervised learning

The difference between cout/cerr/clog

一次edu证书站的挖掘

字体设计符号组合多功能微信小程序源码
随机推荐
PaddleOCR教程
[Jianzhi offer] 6-10 questions
debug和release的区别
CTF竞赛题解之stm32逆向入门
Galera cluster of MariaDB - dual active and dual active installation settings
Actual combat simulation │ JWT login authentication
Etcd database source code analysis - brief process of processing entry records
字体设计符号组合多功能微信小程序源码
高配笔记本使用CAD搬砖时卡死解决记录
ScriptableObject
cout/cerr/clog的区别
colResizable. JS auto adjust table width plug-in
CTF competition problem solution STM32 reverse introduction
QT personal learning summary
Font design symbol combination multifunctional wechat applet source code
Redis: redis message publishing and subscription (understand)
认识ThreadPoolExecutor
[ODX studio edit PDX] - 0.2-how to compare two pdx/odx files of compare
The difference between debug and release
SPH中的粒子初始排列问题(两张图解决)