在本教程中,我們將概述搜索排名的實踐,並演示各種經典和流行的排名算法,以幫助讀者理解搜索相關性算法及其在現實世界中的應用。本教程大綱如下:搜索相關性排名介紹:在這一環節中,我們將概述信息檢索[9]中的排名問題。回顧了排序函數的一些早期工作,並簡要介紹了各種排序函數模型的歷史。我們選擇了一些關鍵的算法來使用真實數據解釋和演示它們的排名表現。我們介紹了幾個關鍵的性能指標來評估排名和在線指標。我們的實踐課程涵蓋了經典排名函數的實現。基於注意力的搜索相關性模型:在這一環節中,我們將概述序列模型的發展,然後討論注意力機制。我們還將介紹Transformer架構,以及如何在搜索排名系統的上下文中利用其中一些架構。具體內容如下: (1) 我們介紹了序列模型(如RNN和LSTM)是什麼,訓練它們時所做的假設是什麼,它們更適合於搜索排名系統的哪種數據集。(2)注意力/自注意力: 我們解釋一般注意力機制。(3) Transformer:與上述兩點類似,我們以真實的搜索排序和自然語言處理任務為背景來解釋和激發Transformer架構。(4) 操作會話封面訓練:注意力/Transformer模型。知識蒸餾的搜索相關性: 在這一環節,我們提供了一個介紹的深度結構化語義模型(DSSM)[3],已廣泛採用在工業中,其質量和高效的架構。我們還介紹了最近的NLP突破,BERT[2]在對查詢文檔對進行評分方面明顯優於DSSM及其變體。然而,我們表明,它的Transformer交叉層同時是昂貴的,因此它不允許離線預計算文檔。為了連接兩者,我們將我們提出的知識蒸餾[5]從教師BERT模型分享到學生模型。新的學習方法明顯勝過傳統的DSMM模型,從點擊中學習。在實踐環節中,聽眾接受了關於在開源數據集上搜索相關性的知識提煉的培訓。提供的代碼示例用於訓練雙塔學生模型,測試數據集用於聽眾體驗教師和學生模型之間的度量差異。
專知便捷查看
便捷下載,請關注專知公眾號(點擊上方藍色專知關注)
後台回復「DR74」 就可以獲取《【KDD2022-教程】深度搜索相關性排名的實踐,74頁ppt》專知下載鏈接


