当前位置:网站首页>论文阅读_多任务学习_MMoE
论文阅读_多任务学习_MMoE
2022-07-25 17:25:00 【xieyan0811】
介绍
英文题目:Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts
中文题目:多门专家混合多任务学习中的任务关系建模
论文地址:https://dl.acm.org/doi/pdf/10.1145/3219819.3220007
领域:深度学习,多任务学习
发表时间:2018
作者:Jiaqi Ma,密歇根大学,谷歌
出处:KDD
被引量:137
代码和数据:https://github.com/drawbridge/keras-mmoe
阅读时间:22.07.24
读后感
多任务学习一般用于相同输入特征,用一个模型同时学习多个任务.一次预测多个标签,这样可以节约训练和预测时间,也能节约存储模型的空间.
之前的方法主要是底层共用网络,上层针对每个任务分别训练自己的网络.这样做的问题是,如果多个任务相关性不强,可能向不同方向拉扯共享参数,虽然理论上多个任务可以互为辅助,提供更多信息,但实现效果往往不如单独训练模型效果好.
介绍
多任务学习效果一般取决于不同任务之间的相关性.文中提出的MMoE(Multi-gate Mixture-of-Experts)是对之前方法MoE的改进.主要用于解决多任务相关性小时,同时优化多个目标的问题.比如同时预测用户是否购买及用户满意度.
在研究过程中,遇到的问题还有:如何衡量不同任务的相关性;如果不让模型由于多任务变得过大和过于复杂.
文章贡献
- 提出MMoE结构,构建了基于门控的上层网络,模型可自动调节网络参数.
- 设计了生成实验数据的方法,以便更好的衡量任务相关性对建模的影响
- 在实验数据集中实现了更好的效果,解决了现实世界中大规模数据训练问题
方法

之前的实现方法如图-1(a)所示,底层网络Shared Bottom共享参数,上层使用双塔或多塔结构以适配不同任务:

其中k是具体任务,f(x)是底层模型,hk是上层模型.
进而是如图-1(b)所示的MoE模型(在后续的实验中也记作OMoE),它使用多个专家网络作为底层,利用输入计算门控值用于设置各个专家贡献的占比,然后将计算出的结果送入上层网络.

其中g是门控,n是专家的各数,公式结合了各个专家的结果.对于每个实体,只有部分网络被激活.
图-1是本文提出的网络结构MMoE,与MoE不同的是它针对不同的任务计算不同的门控分别设置专家占比.

其中的 Wgk 是可训练的矩阵,用于根据输入选择专家.
每个门控网络线性地将输入空间分割成n个区域,每个区域对应一个专家。MMoE决定不同门控制管理的区域如何相互重叠。如果某区域与任务的相关性较低,那么共享专家将受到惩罚,任务的门控网络将学会使用不同的专家。
实验
合成数据实验
合成数据能更好的对比不同任务相关性的影响,利用合成数据的实验对比如图-4所示:

- 对于所有模型,相关度高的任务训练效果都更好
- 在不同相关度的情况下,MMoE都好于OMoE和Shared-Bottom模型.而在相关性一致的情况下,MMoE和OMoE结果几乎一致
- 基于MoE的两个模型效果都明显好于Shared-Bottom,且收敛更快,这说明MoE结构使模型更好训练.
真实数据实验
人口收入数据
使用人口收入数据,分别进行两组实验,第一组同时训练两个任务:训练收入是否超过50K和婚否;第二组同时训练教育程度和婚否.训练数据199523.训练结果如下:

大规模的内容推荐
利用谷歌数以亿计的推荐数据训练.目的是同时优化:与粘性相关的目标,如点击率和粘性时间;以及与满意度相关的目标.具体评价标准使用AUC和R-Squared scores.效果如表-3所示:

从图-6中可以看到不同专家对不同任务的贡献:

边栏推荐
- 双向链表的基本操作
- HCIP笔记十一天
- 更新|3DCAT实时云渲染 v2.1.2版本全新发布
- PostgreSQL passwords are case sensitive. Is there parameter control?
- Bo Yun container cloud and Devops platform won the trusted cloud "technology best practice Award"
- postgreSQL 密码区分大小写 ,有参数控制吗?
- The gas is exhausted! After 23 years of operation, the former "largest e-commerce website in China" has become yellow...
- 网上开期货账户安全吗?手续费怎么申请才低?
- 【目标检测】YOLOv5跑通VisDrone数据集
- Chapter VI succession
猜你喜欢

【解决方案】Microsoft Edge 浏览器 出现“无法访问该页面”问题
Go language series: where does go come from and where will go?

博云容器云、DevOps平台斩获可信云“技术最佳实践奖”

What are the free low code development platforms?

【目标检测】YOLOv5跑通VisDrone数据集

吴恩达机器学习编程作业无法暂停pause问题解决

ACL 2022 | comparative learning based on optimal transmission to achieve interpretable semantic text similarity

Rainbow plug-in extension: monitor MySQL based on MySQL exporter

With 8 years of product experience, I have summarized these practical experience of continuous and efficient research and development
![[target detection] tph-yolov5: UAV target detection based on Transformer's improved yolov5](/img/be/5348170fb460cbafbdb848d70fea15.png)
[target detection] tph-yolov5: UAV target detection based on Transformer's improved yolov5
随机推荐
企业直播风起:目睹聚焦产品,微赞拥抱生态
What is metauniverse gamefi chain game system development? Development and application case and analysis of gamefi metauniverse NFT chain game system
pgsql有没有好用的图形化管理工具?
Chapter 4: operators
[target detection] yolov5 Runtong visdrone data set
多项式相加
C#入门基础教程
【Cadence Allegro PCB设计】永久修改快捷键(自定义)~亲测有效~
With 8 years of product experience, I have summarized these practical experience of continuous and efficient research and development
Box selection screenshot shortcut key of win10
Chapter III data types and variables
Replicate swin on Huawei ascend910_ transformer
[PHP pseudo protocol] source code reading, file reading and writing, and arbitrary PHP command execution
[knowledge atlas] practice -- Practice of question answering system based on medical knowledge atlas (Part3): rule-based problem classification
大型仿人机器人的技术难点和应用情况
备考过程中,这些“谣言”千万不要信!
2022年最新北京建筑施工焊工(建筑特种作业)模拟题库及答案解析
Using rank to discuss the solution of linear equations / the positional relationship of three planes
【硬件工程师】DC-DC隔离式开关电源模块为什么会用到变压器?
Rainbond插件扩展:基于Mysql-Exporter监控Mysql