夕小瑤的賣萌屋 - 別再雙塔了！谷歌提出DSI索引，檢索效果吊打雙塔，零樣本超BM25！－鑽石舞台｜痞客邦

Feb 21 Mon 2022 15:32
夕小瑤的賣萌屋 - 別再雙塔了！谷歌提出DSI索引，檢索效果吊打雙塔，零樣本超BM25！

close

賣萌屋今日學術精選

這篇論文展示了信息檢索可以用一個Transformer來完成，其中，關於語料庫的所有信息都被編碼在Transformer模型的參數中。

論文標題：Transformer Memory as a Differentiable Search Index鏈接：https://arxiv.org/abs/2202.06991

作者提出了可微搜索索引（Differentiable Search Index，DSI)的概念，這是一種新的搜索範式，它可以學習出一個Query-to-DocID的文本檢索模型，將用戶Query直接映射到相關的DocID節點上；換句話說，DSI模型直接使用其模型參數來回答用戶查詢，極大地簡化了整個檢索過程。

上圖展示了經典的雙塔模型（Dual Encoder）+最大內積檢索（MIPS）的經典檢索範式，與本文提出的可微搜索索引（DSI）的範式的區別。後者統一了模型的訓練與檢索。

實驗結果

首先作者在不同規模的NQ數據集上，檢驗了DSI模型的supervised learning能力。

從上表可以看到，DSI模型經過finetune之後，強勢吊打了BM25基線和同樣finetune之後的T5模型。

此外，作者還在NQ數據集上檢驗了DSI模型的zero-shot能力。

眾所周知，BM25是zero shot方面非常高的一個基線，從上表可以看出，DSI的zero shot能力也顯著優於BM25。

實驗表明，給定適當的設計選擇，DSI不僅顯著優於雙塔模型為代表的強基線模型，此外，DSI展示了很強的泛化能力，在zero-shot實驗中顯著優於BM25基線。

後台回復關鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

後台回復關鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

鑽石舞台

鑽石舞台

鑽石舞台發表在痞客邦留言(0) 人氣()

全站分類：不設分類
個人分類：不設分類
此分類上一篇：夕小瑤的賣萌屋 - 如果再這麼玩下去，中國的科研就沒戲了
此分類下一篇：循跡曉講 - 古代豹子生存狀態：要麼變成菜，要麼馴成狗 | 循跡曉講
上一篇：夕小瑤的賣萌屋 - 如果再這麼玩下去，中國的科研就沒戲了
下一篇：影探 - 網紅們，別蹭它了，不嫌丟人現眼啊

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

本日人氣：
累積人氣：