对于开放域检索式QA系统而言,其本质是计算question和doc的本文相似度,而作为老生常谈的文本相似度问题,有监督方法的性能历来是要好于无监督算法的。
本文介绍的文章,反其道而行之,不仅采用了无监督算法,而且将由question计算doc的检索任务转为由doc反推question的任务,并取得了多个任务上的SOTA。
论文题目:
Questions Are All You Need to Train a Dense Passage Retriever
论文链接:
https://arxiv.org/pdf/2206.10658.pdf
在本文中,我们引入了一种基于无监督语料库级auto-encoding的无监督方法———ART(Autoencoding-based Retriever Training )。ART的关键思想是将检索到的文档作为原始question的噪声表示,将对question重构概率作为一种去噪的方式,当“噪声”越来越少的时,检索精度也就越来越高。