close


長期以來,用於開發工業規模搜索引擎的機器學習技術一直是大多數領域及其在線產品的重要組成部分。搜索相關性算法是電子商務、流媒體服務和社交網絡等不同領域產品的關鍵組成部分。在本教程中,我們計劃介紹這種大規模的搜索排名系統,特別關注該領域的深度學習技術。我們計劃涵蓋的主題如下:(1)搜索排名系統在實踐中的概述,包括流行的技術,如頁面排名算法和BM25;(2)介紹搜索排序的序列模型和語言模型;(3)該領域的知識蒸餾方法。對於前面提到的每一節課,我們計劃先做一個介紹性的演講,然後再複習一個實際操作的教程,以真正地鑽研概念。我們計劃通過演示、案例研究和實踐示例來涵蓋基本概念,包括最新的深度學習方法,這些方法在生成最相關的搜索結果方面取得了最先進的結果。此外,我們計劃展示這些方法在python中的示例實現,利用各種開放源碼的機器學習庫以及真實的工業數據或開放源碼數據。

https://dlranking.github.io/dlrr/

相關性排序是信息檢索(Information Retrieval, IR)的核心問題,在網絡搜索引擎等許多應用中起着至關重要的作用。給定一個查詢和一組候選文本文檔,使用一個排名函數通過生成分數來確定文檔相對於查詢的相關度。早期的排序方法專注於查詢和web文檔之間的文本匹配,如BM25[7],向量空間模型[1]等。然而,隨着網絡信息的巨大增長,越來越多的自然語言格式的查詢以及更多的維度特徵(包括時間和空間維度)對現有的排名解決方案提出了挑戰。近年來,深度學習方法在許多機器學習排名應用中表現出了巨大的成功,包括DSSM [3], CDSSM [8], DeepRank[6]等。

在本教程中,我們將概述搜索排名的實踐,並演示各種經典和流行的排名算法,以幫助讀者理解搜索相關性算法及其在現實世界中的應用。本教程大綱如下:搜索相關性排名介紹:在這一環節中,我們將概述信息檢索[9]中的排名問題。回顧了排序函數的一些早期工作,並簡要介紹了各種排序函數模型的歷史。我們選擇了一些關鍵的算法來使用真實數據解釋和演示它們的排名表現。我們介紹了幾個關鍵的性能指標來評估排名和在線指標。我們的實踐課程涵蓋了經典排名函數的實現。基於注意力的搜索相關性模型:在這一環節中,我們將概述序列模型的發展,然後討論注意力機制。我們還將介紹Transformer架構,以及如何在搜索排名系統的上下文中利用其中一些架構。具體內容如下: (1) 我們介紹了序列模型(如RNN和LSTM)是什麼,訓練它們時所做的假設是什麼,它們更適合於搜索排名系統的哪種數據集。(2)注意力/自注意力: 我們解釋一般注意力機制。(3) Transformer:與上述兩點類似,我們以真實的搜索排序和自然語言處理任務為背景來解釋和激發Transformer架構。(4) 操作會話封面訓練:注意力/Transformer模型。知識蒸餾的搜索相關性: 在這一環節,我們提供了一個介紹的深度結構化語義模型(DSSM)[3],已廣泛採用在工業中,其質量和高效的架構。我們還介紹了最近的NLP突破,BERT[2]在對查詢文檔對進行評分方面明顯優於DSSM及其變體。然而,我們表明,它的Transformer交叉層同時是昂貴的,因此它不允許離線預計算文檔。為了連接兩者,我們將我們提出的知識蒸餾[5]從教師BERT模型分享到學生模型。新的學習方法明顯勝過傳統的DSMM模型,從點擊中學習。在實踐環節中,聽眾接受了關於在開源數據集上搜索相關性的知識提煉的培訓。提供的代碼示例用於訓練雙塔學生模型,測試數據集用於聽眾體驗教師和學生模型之間的度量差異。

專知便捷查看

便捷下載,請關注專知公眾號(點擊上方藍色專知關注)

後台回復「DR74」 就可以獲取《【KDD2022-教程】深度搜索相關性排名的實踐,74頁ppt》專知下載鏈接


專知,專業可信的人工智能知識分發,讓認知協作更快更好!歡迎註冊登錄專知www.zhuanzhi.ai,獲取100000+AI(AI與軍事、醫藥、公安等)主題乾貨知識資料!
歡迎微信掃一掃加入專知人工智能知識星球群,獲取最新AI專業乾貨知識教程資料和與專家交流諮詢!
點擊「閱讀原文」,了解使用專知,查看獲取100000+AI主題知識資料
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()