当前位置:网站首页>AI模型看看视频,就学会了玩《我的世界》:砍树、造箱子、制作石镐样样不差...
AI模型看看视频,就学会了玩《我的世界》:砍树、造箱子、制作石镐样样不差...
2022-07-03 10:31:00 【3D视觉工坊】
作者丨陈萍、小舟
来源丨机器之心
《我的世界》里,玩家不一定都是人类,现在 AI 也会玩了。
《我的世界》是全球知名度最高的开放世界游戏。小朋友只需观看十分钟的教学视频,就能学会在游戏中寻找稀有的钻石,但这却是 AI 此前无法企及的高度。
今天 OpenAI 的研究团队宣布他们开发了一种能玩《我的世界》的智能体,其中使用《我的世界》游戏大量未标记视频数据集训练神经网络,仅使用少量标记数据。
微调之后,OpenAI 训练的模型还可以学习制作挖矿工具,熟练的人类玩家在 20 分钟内可以完成这个任务(24000 次操作)。OpenAI 的模型使用按键和鼠标移动控制人机界面,这使得该模型非常通用,这向通用计算机使用智能体迈出了一步。
论文地址:https://cdn.openai.com/vpt/Paper.pdf
我们先来看下效果,模型建造一个简陋的木制避难所:
制作石镐
在村庄里搜寻
VPT 方法
互联网包含大量可供我们学习的公开视频,例如游戏玩家演示游戏玩法,《我的世界》玩家建造一个错综复杂的房子。然而这些视频只提供了事情发生的记录,而不是确切的实现方式,即没有说明鼠标移动和按键的确切顺序。
相比于 OpenAI 的大型语言模型,要在视频游戏等更通用领域构建大型基础模型(foundation model),缺乏动作标签带来了新的挑战。
为了利用互联网上可用的大量未标记视频数据,该研究提出了一种新颖但简单的半监督模仿学习方法:视频预训练(VPT)。
该研究首先从游戏商家那里收集了一个小型数据集,其中不仅记录了玩游戏的视频,还记录了玩家采取的行动,即按键和鼠标的移动。利用这些数据,该研究训练了一个逆动力学模型 (IDM),以预测视频中每个步骤所采取的动作。重要的是,IDM 可以使用过去和未来的信息来猜测每一步动作。与仅给定过去视频帧预测动作的行为克隆任务相比,这种任务要容易得多,需要的数据也要少得多。然后该研究使用经过训练的 IDM 来标记更大的在线视频数据集,并通过行为克隆来学习行动。
下图为 VPT 方法概览:
VPT 零样本结果
该研究选择《我的世界》这个游戏中验证了所提方法,因为它 (1) 是世界上最流行的视频游戏之一,拥有大量可免费获得的视频数据,并且 (2) 是开放式的,可以提供各种各样的行为动作,类似于现实世界的应用程序(如计算机使用)。与之前的工作在《我的世界》中使用简化动作空间不同,OpenAI 的新模型使用更普遍适用、难度也更大的原生人机界面:鼠标和键盘使用 20Hz 帧率。
该研究的行为克隆模型(VPT 基础模型)使用 70000 小时的 IDM 标记在线视频进行训练,在《我的世界 》中完成了强化学习几乎不可能实现的任务。新模型学会了砍树收集原木,将原木制作成木板,然后将木板制作成箱子;这个行为序列对于《我的世界》高级玩家在约 50 秒内执行 1000 个连续的游戏动作。
《我的世界》制作箱子过程中每一步所需的动作数目和时间。
零样本模型制作箱子的过程。
此外,该模型还可以执行人类在游戏中经常执行的其他复杂技能,例如游泳、狩猎动物、食用食物以及一些《我的世界》专用技能。
游泳。
狩猎。
食用食物。
用行为克隆进行微调
基础模型旨在具有广泛的行为特征,并且完成各种任务。为了整合新知识或让他们专注于更具体的任务,通常的做法是基于更小、更具体的数据集对模型进行微调。
那么,VPT 基础模型如何微调到下游数据集呢?OpenAI 让人类玩家在最新版《我的世界》中玩了 10 分钟,并用基本的材料建造房子。OpenAI 希望这能增强基础模型执行早期游戏技能的能力。结果表明,基础模型在可靠执行早期游戏技能方面有了巨大进步,而且微调后的模型还掌握了制作石器等新技能。
制作一个石镐所需要的物品顺序
数据扩展
也许该研究中最重要的假设是,使用标记的 contractor 数据训练 IDM(作为 VPT pipeline 的一部分)要比直接从同一个小型 contractor 数据集训练 BC 基础模型有效得多。为了验证这一假设,研究者不断增加数据量来训练基础模型,数据量规模从 1 小时增加到 70000 小时。他们将训练分为两个部分,如下图虚线所示,训练数据时长以 2000 为分界线。
基础模型训练数据对微调的影响:从图中可以看出,随着基础模型数据的增加,模型制作能力随之增加,只有在最大的数据规模下,我们才会看到石器工具制作的出现。
通过强化学习进行微调
当指定的奖励函数足够好时,强化学习便能够成为一种强大的方法去激发更高的,甚至是超人类的表现。VPT 模型和 RL 搭配更好,因为模仿人类行为可能比采取随机行动更有帮助。该研究设置了一些模型挑战任务,即收集钻石鹤嘴锄,这是在《我的世界》中前所未有的能力。
制作一把钻石鹤嘴锄需要一长串复杂的子任务。为了使这个任务易于处理,该研究会奖励序列中的每一项智能体。
RL 微调 VPT 模型制作钻石鹤嘴锄
该研究发现,从随机初始化(标准 RL 方法)训练的 RL 策略几乎没有获得任何奖励。与之形成鲜明对比的是,VPT 模型的微调不仅可以(它在 10 分钟的《我的世界》中有 2.5% 会这样做),而且它在收集所有物品以获得钻石镐方面的成功率甚至达到了人类的水平。这是人类首次展示计算机智能体能够在《我的世界》中制作钻石工具,而人类平均需要 20 多分钟(24000 次操作)。
VPT 让智能体通过观看互联网上的大量视频就可以进行学习铺平了道路。与只会产生表征先验的生成视频建模或对比方法相比,VPT 提供了在更多领域可以直接学习大规模行为先验的可能性,而不仅仅是语言。虽然该研究只在 《我的世界》中进行实验,但该游戏开放的,并且原生人机界面(鼠标和键盘)非常通用,因此这项研究也会给其他领域带来益处,例如电脑使用。
此外,该研究还开源了数据、《我的世界》所需环境、模型代码、模型权重,他们希望这些开源有助于未来 VPT 的研究。
原文链接:
https://openai.com/blog/vpt/
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊精品课程官网:3dcver.com
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
边栏推荐
- Google Earth Engine(GEE)——当我们前后影像来弥补插值效果得时候,没有效果怎么办?
- CorelDRAW Graphics Suite 2022新版功能详情介绍
- 金额计算用 BigDecimal 就万无一失了?看看这五个坑吧~~
- Empire CMS no thumbnail smart tag (e:loop) two ways to judge whether there is a titlepic
- How PHP solves the problem of high concurrency
- ASP.NET-酒店管理系统
- ASP.NET-酒店管理系統
- Redis things
- 读书笔记:《心若菩提》 曹德旺
- 封装一个koa分布式锁中间件来解决幂等或重复请求的问题
猜你喜欢
Use typora to draw flow chart, sequence diagram, sequence diagram, Gantt chart, etc. for detailed explanation
Matlab extracts numerical data from irregular txt files (simple and practical)
(2) Base
封装一个koa分布式锁中间件来解决幂等或重复请求的问题
Multi dimensional monitoring: the data base of intelligent monitoring
【obs】obs的ini格式的ConfigFile
LeetCode 46:全排列
C language AES encryption and decryption
ASP.NET-酒店管理系统
Driver development based on I2C protocol
随机推荐
Program process management tool -go Supervisor
How to become a senior digital IC Design Engineer (1-3) Verilog coding syntax: Verilog behavior level, register transfer level, gate level (abstract level)
ORACLE 11G 单机冷备数据库
phpcms 提示信息頁面跳轉showmessage
AMS series - application startup process
Encapsulation attempt of network request framework of retro + kotlin + MVVM
Analysis of EPS electric steering system
Struct function & function pointer
图解网络:什么是虚拟路由器冗余协议 VRRP?
FL Studio 20无限试用版水果编曲下载
Bi skills - permission axis
金额计算用 BigDecimal 就万无一失了?看看这五个坑吧~~
asyncio 警告 DeprecationWarning: There is no current event loop
Numpy np.max和np.maximum实现relu函数
One hot code
一些常用术语
行业唯一!法大大电子合同上榜36氪硬核科技企业
How to become a senior digital IC Design Engineer (1-4) Verilog coding syntax: expression
AOSP ~ NTP ( 网络时间协议 )
线性表顺序表综合应用题P18