当前位置:网站首页>机器人强化学习——Transferring End-to-End Visuomotor Control from Simulation to RealWorld (CoRL 2017)
机器人强化学习——Transferring End-to-End Visuomotor Control from Simulation to RealWorld (CoRL 2017)
2022-06-29 04:44:00 【千羽QY】
6.1 简介
面向场景:端到端的视觉驱动(图像->力矩或扭矩,Visuomotor)、多阶段任务(multi-stage task)。
任务:定位方块物体、reach、grasp、定位篮子、把方块放到篮子里
方法主要包括两步:(1)在仿真环境中计算并收集轨迹,即控制速度;(2)训练CNN,学习从图像到速度的映射,使用域随机化进行增强。
演示数据:由笛卡尔坐标系中的逆运动学求解计算得到,第一人称图像。
网络:输入图像和关节角,输出电机速度(通过PID使关节达到该速度)。辅助输出方块和机械手的位置时,网络性能会提升。
实验演示了在动态光照条件、有干扰物、物体移动 场景下的效果。
6.2 方法
1、如何实现多阶段任务?网络知道当前任务进度吗?
论文里没有明确说这一点,凭推测是:LSTM网络输入连续四帧图像,根据图像变化学习当前任务进度;
如:
(1)机械手空着时,网络当前任务目标为 把机械手移动至方块上方
(2)机械手连续四帧在运动,且当前帧中机械手位于方块上方时,网络当前任务目标为 闭合机械手
(3)方块位于机械手中时,网络当前任务目标为 把机械手移动至篮子上方
(4)机械手运动至篮子上方时,网络当前任务目标为 张开机械手
6.3 想法
6.3.1 本文问题
1、行为克隆无法处理没见过的场景,因此需要100万张图像;如果先使用行为克隆训练,再使用强化学习,可能需要的样本更少?
2、模型太固定,如果我想抓取一个圆形物体、放到另一个篮子里,需要重新训练网络;可以尝试把任务目标添加进网路的输入
6.3.2 想法
1、行为克隆+强化学习
2、把任务目标(如物体图像、图谱节点等)添加进网路的输入,使方法可以处理不同的物体
3、网络输入可以包含机械手的状态,类似QT-Opt;
4、可以借鉴网络输出关节速度、域随机化方式、LSTM学习任务状态和进度。
6.4 论文原文笔记
pdf下载地址:https://download.csdn.net/download/qq_40081208/85788235







边栏推荐
- How to create a subtype like relationship between two generic classes when the classes are generic related
- MySQL subquery
- The last week! Summary of pre competition preparation for digital model American Games
- Redis cache penetration, cache breakdown, cache avalanche
- 如何创建 robots.txt 文件?
- 2022-2028 global and Chinese industrial digital electronic blasting detonator Market Status and future development trend
- Research Report on the overall scale, major manufacturers, major regions, product and application segmentation of GSM and GPRS modules in the global market in 2022
- Direct derivation of Bessel function with MATLAB
- Real time waveform calculation function of Waveform Recorder mr6000
- 从零到一,教你搭建「以文搜图」搜索服务(一)
猜你喜欢

轻松入门自然语言处理系列 专题7 基于FastText的文本分类

I haven't encountered these three problems. I'm sorry to say that I used redis

【HackTheBox】dancing(SMB)

The subnet of the pool cannot be overlapped with that of other pools.

Cipher

【HackTheBox】dancing(SMB)

【HackTheBox】dancing(SMB)

JDBC learning

直播预约|AWS Data Everywhere 系列活动

Composite pattern
随机推荐
Proxy mode (proxy)
MySQL subquery
innography
[structural mechanics] the reason why the influence line under joint load is different from that under direct load
Mvcc principle in MySQL
Practical part: solving the function conflict between swagger and user-defined parameter parser
直播预约|AWS Data Everywhere 系列活动
安捷伦数字万用表软件NS-Multimeter,实时数据采集数据自动保存
Complete collection of necessary documents for project management: you can't write these 14 project documents yet?
Is the interviewer too difficult to serve? A try catch asks so many tricks
Experience sharing of system analysts in preparing for exams: phased and focused
Network device setting / canceling console port login separate password
Gbase 8s must be a DBSA. Solution to failure to start due to path change
What is the method of connection query in MySQL
i-Teams W3: How to build a sound-bottling business
JVM内存调优方式
What if modstart forgets the background user or password?
力扣解法汇总324-摆动排序 II
Facade pattern
2022-2028 global and Chinese industrial digital electronic blasting detonator Market Status and future development trend