当前位置:网站首页>双塔模型的最强出装,谷歌又开始玩起“老古董”了?
双塔模型的最强出装,谷歌又开始玩起“老古董”了?
2022-07-07 21:34:00 【智源社区】
双塔模型已经证明在搜索和问答任务中是非常有效的建模方法,理论和业务落地已相当成熟。双塔根据参数共享程度不同,通常会归纳成两类:Simese dual encoder和Asymmetric dual encoder,前者参数结构完全对称,后者则是不完全对称(下文简称SDE和ADE)。
本篇论文是继双塔沉寂许久之后,谷歌再次将它推到宇宙中心,并打开双塔的最强出装,详细地探索两者的区别和关联,也通过实验给出了双塔结构的更多经验性结论。适合老司机再次回味经典和小白做深刻且系统地入门~
论文题目:
Exploring Dual Encoder Architectures for Question Answering
论文链接:
https://arxiv.org/abs/2204.07120
背景
首先科普下什么是SDE和ADE?双编码器网络结构是将text1和text2分别编码成向量表征,然后计算两者的cosine等距离函数衡量其相似度。SDE是完全共享参数的双胞胎网络,也就是虽说是双塔,但实际上query/user和doc/item共用一套参数;ADE只是部分参数共享或者完全不共享,是独立的两套参数网络。它们的共同点是都不会进行深层交互,对比BERT则是典型的交互式网络。双塔结构一个最典型的应用是召回or粗排,对计算速度要求严格的场景。
双塔的建模思想是比较简单和容易理解的。本篇文章短小精悍,亮点就在于提供双塔应用场景下一个较通用的结论,解释清楚了几个疑问:
- ADE和SDE在QA任务上哪一个效果更好?
- ADE表现差的原因是什么?解决办法是什么?
作者通过合理且详实的实验得到可靠的结论,小白也可以迅速get到如何在(向)实(导)验(师)做科(汇)研(报)。
实验
作者在QA检索任务上进行了5个实验,计算query和候选answer(doc or passage)的相似性,评测任务是MS MARCO和MultiReQA。模型的encoder是基于transformer,cosine作为距离度量函数,目标是探究参数的共享化程度对建模效果影响。 5组实验网络分别是图一的标准SDE和ADE,以及3个变种结构:• ADE with shared token embedder (ADE-STE) • ADE with frozen token embedder (ADE-FTE) • ADE with shared projection layer (ADE-SPL) 实验结果如下:
实验结论:
- ADE在多个任务上的表现一致地明显逊色于SDE。作者给出来合理的解释是由于ADE本质是两个参数不同的网络,所以把query和doc映射到两个完全不同的向量空间。这一点后面又给出了更有力的证据。
- ADE-SPL的表现可以媲美SDE。后3个实验是作者探索参数共享化程度提出的结构,同时也给出了网络的哪一部分是限制ADE效果的关键。只是共享或者固定底层token embedder参数带来的效果提升并不明显,但当最后的顶层参数共用一套全连接层的时候,可以取得和SDE接近的效果。为什么呢?作者的猜测是因为最后的MLP又把参数约束到了同一个向量空间中了。
为了进一步说明问题,作者进行了另一个实验,将NaturalQuestions测试集的query和answer提前计算出来,然后通过t-SNE映射并聚类到一个二维空间中,惊讶地发现,dual encoder的表现取决于最后两者是否在一个可比的向量空间。
边栏推荐
- Debugging and handling the problem of jamming for about 30s during SSH login
- Why can't win11 display seconds? How to solve the problem that win11 time does not display seconds?
- Codeforces Round #275 (Div. 2) C – Diverse Permutation (构造)[通俗易懂]
- Devil daddy B1 hearing the last barrier, break through with all his strength
- The maximum number of meetings you can attend [greedy + priority queue]
- Codeforces 474 F. Ant colony
- POJ 3140 Contestants Division「建议收藏」
- Which financial products will yield high returns in 2022?
- Win11时间怎么显示星期几?Win11怎么显示今天周几?
- Jetty: configure connector [easy to understand]
猜你喜欢
Goal: do not exclude yaml syntax. Try to get started quickly
Debugging and handling the problem of jamming for about 30s during SSH login
How to turn on win11 game mode? How to turn on game mode in win11
SQL injection error report injection function graphic explanation
Win11时间怎么显示星期几?Win11怎么显示今天周几?
NVR硬盘录像机通过国标GB28181协议接入EasyCVR,设备通道信息不显示是什么原因?
Why can't win11 display seconds? How to solve the problem that win11 time does not display seconds?
Problems encountered in installing mysql8 for Ubuntu and the detailed installation process
【JDBC Part 1】概述、获取连接、CRUD
Win11如何解禁键盘?Win11解禁键盘的方法
随机推荐
Google SEO external chain backlinks research tool recommendation
Unity3d 4.3.4f1执行项目
2022年在启牛开中银股票的账户安全吗?
Datatable data conversion to entity
The difference between NPM uninstall and RM direct deletion
嵌入式开发:如何为项目选择合适的RTOS?
Addition, deletion, modification and query of sqlhelper
What is the reason for the abnormal flow consumption of 4G devices accessing the easygbs platform?
Is it safe to open an account of BOC shares in kainiu in 2022?
Reptile combat (VII): pictures of the king of reptiles' heroes
Demon daddy C
Redis - basic use (key, string, list, set, Zset, hash, geo, bitmap, hyperloglog, transaction)
Kirin Xin'an operating system derivative solution | storage multipath management system, effectively improving the reliability of data transmission
Can I open a stock account directly online now? Is it safe?
Problems encountered in installing mysql8 for Ubuntu and the detailed installation process
【JDBC Part 1】概述、获取连接、CRUD
Jerry's manual matching method [chapter]
TCP/IP 协议栈
Actual combat: sqlserver 2008 Extended event XML is converted to standard table format [easy to understand]
Use camunda to do workflow design and reject operations