当前位置:网站首页>OR Talk NO.19 | Facebook田渊栋博士:基于蒙特卡洛树搜索的隐动作集黑盒优化 - 知乎
OR Talk NO.19 | Facebook田渊栋博士:基于蒙特卡洛树搜索的隐动作集黑盒优化 - 知乎
2020-11-08 11:21:00 【osc_4eht81t7】
分享提纲
主题:《基于蒙特卡洛树搜索的隐动作集黑盒优化》
嘉宾: @田渊栋 博士
时间:北京时间 2020年 11月7号(周六) 早 10:00
地点:『运筹OR帷幄』哔哩哔哩直播间
简介
近期,Facebook AI Lab 的田渊栋博士与布朗大学的王林楠及其老板 Rodrigo Fonseca 合作发表了一篇关于黑盒优化的文章(arXiv:2007.00708),提出了一种新的叫作 La-MCTS (Latent Action Monte Carlo Tree Search) 的黑盒优化(Black-box optimization)方法。这里的隐动作集 (Latent Action, La) 是指,从搜索空间的当下节点选择好的子空间(左节点),或坏的子空间(右节点)。
传统蒙特卡洛树搜索的目标是在给定状态空间(state space S)、行动空间(action space A)及状态转移函数(transition matrix, S->A->S') ,传统蒙特卡洛树搜索通过搜索过去的种种行为各有多少奖励,找到最优的行动序列获得最大的奖励。黑盒优化从一个不错的起始点出发去寻找最优解,也可以通过这种方式建模。
但它与传统强化学习之间,有一个关键的不同点:黑盒优化的行动空间可以任意指定,只要有利于最优解的搜寻就可以。LaMCTS正是利用这一点,通过自动学习行动空间的结构以提高搜索效率。
LaMCTS作为一个元算法(meta-algorithm),采用非线性函数切分空间,可以叠加在任何已知的黑盒优化算法,比如Bayesian Optimization(BO)上面。该算法让高维高斯过程的建模局限在一个比较小的范围内,从而更快地在叶节点的子区域中找到最优解。在实际问题中,黑盒优化适用的场景往往是函数调用开销非常大且没有导数信息的情形,比如说函数值是一个复杂系统运转一天后的平均效率,或者是耗费巨资才可获得的一个实验结果,等等,通过降低最优解的样本复杂度,可以极大地降低成本提高效率。
LaMCTS已被NeurIPS 2020接收。算法的源代码目前已公布在 Github 上。
(https://github.com/facebookresearch/LaMCTS)
本次直播,田博士将为我们详细讲解这篇论文的背景和内容。
嘉宾介绍
田渊栋博士,脸书(Facebook)人工智能研究院研究员及经理,研究方向为深度强化学习,多智能体学习,及其在游戏中的应用,和深度学习模型的理论分析。曾担任围棋开源项目 DarkForest 及 ELF OpenGo 项目中研究及工程负责人和第一作者。2013-2014年在Google无人驾驶团队任软件工程师。2005年及08年于上海交通大学获本硕学位,2013年于美国卡耐基梅隆大学机器人研究所获博士学位。曾获得2013年国际计算机视觉大会(ICCV)马尔奖提名(Marr Prize Honorable Mentions)。
参考阅读:
版权声明
本文为[osc_4eht81t7]所创,转载请带上原文链接,感谢
https://my.oschina.net/u/4331787/blog/4708053
边栏推荐
- 不多不少,大学里必做的五件事(从我的大一说起)
- C language I blog assignment 03
- Solve Safari browser download file name garbled problem
- Python basic syntax variables
- 虚拟机中安装 macOS 11 big sur
- 比Python快20%,就问你兴不兴奋?
- Ali teaches you how to use the Internet of things platform! (Internet disk link attached)
- vivoY73s和vivoY70s的区别 vivoY73s和vivoY70s哪个值得入手
- C语言I博客作业03
- A scheme to improve the memory utilization of flutter
猜你喜欢
随机推荐
2 days, using 4 hours after work to develop a test tool
Adobe Lightroom /Lr 2021软件安装包(附安装教程)
当Kubernetes遇到机密计算,看阿里巴巴如何保护容器内数据的安全!(附网盘链接)
Top 5 Chinese cloud manufacturers in 2018: Alibaba cloud, Tencent cloud, AWS, telecom, Unicom
How does spotify drive data-driven decision making?
渤海银行百万级罚单不断:李伏安却称治理完善,增速呈下滑趋势
Function periodic table filter value selectedvalue
狗狗也能操作无人机!你没看错,不过这其实是架自动驾驶无人机 - 知乎
YGC troubleshooting, let me rise again!
211考研失败后,熬夜了两个月拿下字节offer!【面经分享】
print( 'Hello,NumPy!' )
PCIe enumeration process
笔试面试题目:盛水最多的容器
[data structure Python description] use hash table to manually implement a dictionary class based on Python interpreter
Ali teaches you how to use the Internet of things platform! (Internet disk link attached)
5g/4g工业无线路由器
How did Julia become popular?
IQKeyboardManager 源代码看看
A scheme to improve the memory utilization of flutter
[computer network] learning notes, Part 3: data link layer (Xie Xiren version)