当前位置:网站首页>双塔模型的最强出装,谷歌又开始玩起“老古董”了?
双塔模型的最强出装,谷歌又开始玩起“老古董”了?
2022-07-07 21:34:00 【智源社区】
双塔模型已经证明在搜索和问答任务中是非常有效的建模方法,理论和业务落地已相当成熟。双塔根据参数共享程度不同,通常会归纳成两类:Simese dual encoder和Asymmetric dual encoder,前者参数结构完全对称,后者则是不完全对称(下文简称SDE和ADE)。
本篇论文是继双塔沉寂许久之后,谷歌再次将它推到宇宙中心,并打开双塔的最强出装,详细地探索两者的区别和关联,也通过实验给出了双塔结构的更多经验性结论。适合老司机再次回味经典和小白做深刻且系统地入门~
论文题目:
Exploring Dual Encoder Architectures for Question Answering
论文链接:
https://arxiv.org/abs/2204.07120
背景
首先科普下什么是SDE和ADE?双编码器网络结构是将text1和text2分别编码成向量表征,然后计算两者的cosine等距离函数衡量其相似度。SDE是完全共享参数的双胞胎网络,也就是虽说是双塔,但实际上query/user和doc/item共用一套参数;ADE只是部分参数共享或者完全不共享,是独立的两套参数网络。它们的共同点是都不会进行深层交互,对比BERT则是典型的交互式网络。双塔结构一个最典型的应用是召回or粗排,对计算速度要求严格的场景。

双塔的建模思想是比较简单和容易理解的。本篇文章短小精悍,亮点就在于提供双塔应用场景下一个较通用的结论,解释清楚了几个疑问:
- ADE和SDE在QA任务上哪一个效果更好?
- ADE表现差的原因是什么?解决办法是什么?
作者通过合理且详实的实验得到可靠的结论,小白也可以迅速get到如何在(向)实(导)验(师)做科(汇)研(报)。

实验
作者在QA检索任务上进行了5个实验,计算query和候选answer(doc or passage)的相似性,评测任务是MS MARCO和MultiReQA。模型的encoder是基于transformer,cosine作为距离度量函数,目标是探究参数的共享化程度对建模效果影响。 5组实验网络分别是图一的标准SDE和ADE,以及3个变种结构:• ADE with shared token embedder (ADE-STE) • ADE with frozen token embedder (ADE-FTE) • ADE with shared projection layer (ADE-SPL) 实验结果如下:

实验结论:
- ADE在多个任务上的表现一致地明显逊色于SDE。作者给出来合理的解释是由于ADE本质是两个参数不同的网络,所以把query和doc映射到两个完全不同的向量空间。这一点后面又给出了更有力的证据。
- ADE-SPL的表现可以媲美SDE。后3个实验是作者探索参数共享化程度提出的结构,同时也给出了网络的哪一部分是限制ADE效果的关键。只是共享或者固定底层token embedder参数带来的效果提升并不明显,但当最后的顶层参数共用一套全连接层的时候,可以取得和SDE接近的效果。为什么呢?作者的猜测是因为最后的MLP又把参数约束到了同一个向量空间中了。
为了进一步说明问题,作者进行了另一个实验,将NaturalQuestions测试集的query和answer提前计算出来,然后通过t-SNE映射并聚类到一个二维空间中,惊讶地发现,dual encoder的表现取决于最后两者是否在一个可比的向量空间。

边栏推荐
- Win11U盘不显示怎么办?Win11插U盘没反应的解决方法
- Demon daddy guide post - simple version
- cv2.resize函数报错:error: (-215:Assertion failed) func != 0 in function ‘cv::hal::resize‘
- Problems encountered in installing mysql8 for Ubuntu and the detailed installation process
- Le capital - investissement est - il légal en Chine? C'est sûr?
- Reptile combat (VII): pictures of the king of reptiles' heroes
- QT compile IOT management platform 39 alarm linkage
- Jerry's about TWS channel configuration [chapter]
- Nine degree 1201 - traversal of binary sort number - binary sort tree "suggestions collection"
- Cocos2d-x 游戏存档[通俗易懂]
猜你喜欢

NVR硬盤錄像機通過國標GB28181協議接入EasyCVR,設備通道信息不顯示是什麼原因?

Virtual machine network configuration in VMWare

三元表达式、各生成式、匿名函数

建立自己的网站(18)
![Restapi version control strategy [eolink translation]](/img/65/decbc158f467ab8c8923c5947af535.png)
Restapi version control strategy [eolink translation]

EasyCVR配置中心录像计划页面调整分辨率时的显示优化

648. Word replacement
![[200 opencv routines] 223 Polygon fitting for feature extraction (cv.approxpolydp)](/img/1e/055df228853d9b464fc4bcbde0a7ee.png)
[200 opencv routines] 223 Polygon fitting for feature extraction (cv.approxpolydp)

Ten thousand word summary data storage, three knowledge points

Validutil, "Rethinking the setting of semi supervised learning on graphs"
随机推荐
MinGW MinGW-w64 TDM-GCC等工具链之间的差别与联系「建议收藏」
Mahout-Pearson correlation的实现
Differences and connections between MinGW, mingw-w64, tdm-gcc and other tool chains "suggestions collection"
EasyCVR配置中心录像计划页面调整分辨率时的显示优化
Intelligent transportation is full of vitality. What will happen in the future? [easy to understand]
Unity3d 4.3.4f1执行项目
UVA 11080 – place the guards
Ad domain group policy management
Hdu4876zcc love cards (multi check questions)
Do you have to make money in the account to open an account? Is the fund safe?
L2: current situation, prospects and pain points of ZK Rollup
Use camunda to do workflow design and reject operations
单词反转实现「建议收藏」
Reinforcement learning - learning notes 8 | Q-learning
Jetty: configure connector [easy to understand]
The little money made by the program ape is a P!
Goal: do not exclude yaml syntax. Try to get started quickly
嵌入式开发:如何为项目选择合适的RTOS?
NVR硬盤錄像機通過國標GB28181協議接入EasyCVR,設備通道信息不顯示是什麼原因?
Solve the problem of uni in uni app Request sent a post request without response.