当前位置:网站首页>OR Talk NO.19 | Facebook田渊栋博士:基于蒙特卡洛树搜索的隐动作集黑盒优化 - 知乎

OR Talk NO.19 | Facebook田渊栋博士:基于蒙特卡洛树搜索的隐动作集黑盒优化 - 知乎

2020-11-08 11:21:00 osc_4eht81t7

分享提纲

主题:《基于蒙特卡洛树搜索的隐动作集黑盒优化》

嘉宾: @田渊栋 博士

时间:北京时间 2020年 11月7号(周六) 早 10:00

地点:『运筹OR帷幄』哔哩哔哩直播间

链接:live.bilibili.com/21459168


简介

近期,Facebook AI Lab 的田渊栋博士与布朗大学的王林楠及其老板 Rodrigo Fonseca 合作发表了一篇关于黑盒优化的文章(arXiv:2007.00708),提出了一种新的叫作 La-MCTS (Latent Action Monte Carlo Tree Search) 的黑盒优化(Black-box optimization)方法。这里的隐动作集 (Latent Action, La) 是指,从搜索空间的当下节点选择好的子空间(左节点),或坏的子空间(右节点)。

传统蒙特卡洛树搜索的目标是在给定状态空间(state space S)、行动空间(action space A)及状态转移函数(transition matrix, S->A->S') ,传统蒙特卡洛树搜索通过搜索过去的种种行为各有多少奖励,找到最优的行动序列获得最大的奖励。黑盒优化从一个不错的起始点出发去寻找最优解,也可以通过这种方式建模。

但它与传统强化学习之间,有一个关键的不同点:黑盒优化的行动空间可以任意指定,只要有利于最优解的搜寻就可以。LaMCTS正是利用这一点,通过自动学习行动空间的结构以提高搜索效率。

LaMCTS作为一个元算法(meta-algorithm),采用非线性函数切分空间,可以叠加在任何已知的黑盒优化算法,比如Bayesian Optimization(BO)上面。该算法让高维高斯过程的建模局限在一个比较小的范围内,从而更快地在叶节点的子区域中找到最优解。在实际问题中,黑盒优化适用的场景往往是函数调用开销非常大且没有导数信息的情形,比如说函数值是一个复杂系统运转一天后的平均效率,或者是耗费巨资才可获得的一个实验结果,等等,通过降低最优解的样本复杂度,可以极大地降低成本提高效率。

LaMCTS已被NeurIPS 2020接收。算法的源代码目前已公布在 Github 上。

(https://github.com/facebookresearch/LaMCTS)

本次直播,田博士将为我们详细讲解这篇论文的背景和内容。


嘉宾介绍

田渊栋博士,脸书(Facebook)人工智能研究院研究员及经理,研究方向为深度强化学习,多智能体学习,及其在游戏中的应用,和深度学习模型的理论分析。曾担任围棋开源项目 DarkForest 及 ELF OpenGo 项目中研究及工程负责人和第一作者。2013-2014年在Google无人驾驶团队任软件工程师。2005年及08年于上海交通大学获本硕学位,2013年于美国卡耐基梅隆大学机器人研究所获博士学位。曾获得2013年国际计算机视觉大会(ICCV)马尔奖提名(Marr Prize Honorable Mentions)。


参考阅读:

介绍两篇NeurIPS的文章(二)

布朗大学和FAIR开源LA-MCTS,及其在神经网络结构搜索的应用

版权声明
本文为[osc_4eht81t7]所创,转载请带上原文链接,感谢
https://my.oschina.net/u/4331787/blog/4708053