展開

function _typeof(e){return e&&"undefined"!=typeof Symbol&&e.constructor===Symbol?"symbol":typeof e;}!function(e){if("object"===("undefined"==typeof module?"undefined":_typeof(module)))module.exports=e;else{if(window.__second_open__)return;var t="";t?e(t,!0):e("");}window.__setDesc=e;}(function(e,t){function a(e,t){var a=e.match(new RegExp(t+"\\s*=\\s*[\"']?([^\"'\\s>]+)[\"']?"));return a&&a[1];}function n(e){e=e.split(/(]*>)(.*?)()/);for(var t,n=0;ni.offsetHeight+1?"block":"none";},300));});

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

近日,中國領先的All-in-One招聘解決方案提供商圖譜與候選人智能分析和匹配系統提供商HiredScore正式簽署戰略合作夥伴協議。中美服務大中型企業的人才招聘領域專家攜手,將基於AI(人工智能)技術和招聘業務的深度融合,拓展雙方的產品研發和客戶資源合作,幫助企業通過鏈接來便捷地發現人才、智能處理人力資源數據、改進優化招聘流程,從而高效和多樣化地進行招聘管理。


鑽石舞台 發表在 痞客邦 留言(0) 人氣()

▐1. 背景
隨着整個互聯網行業的發展,各大互聯網公司作為服務提供商,積累了越來越多能夠服務用戶的優質內容,如電商領域的各類商品、視頻領域豐富的視頻、直播等。而隨着信息量的爆炸,算法技術作為連接內容和用戶的橋樑,在服務質量的提升上發揮着至關重要的作用。隨着業界在搜索、推薦、廣告技術上多年的迭代積累,逐步形成了較為穩定的召回(匹配)、粗排、精排這一多階段的系統架構,而召回模塊及其相關的算法,在各類業務中處於鏈路最前端,其決定着整體服務質量的天花板。
就召回技術而言,其核心問題是如何從大規模的候選集中,找到一個足夠優質且大小有限的子集供後鏈路做進一步處理。因此,召回階段與其他模塊的本質差異,在於其面對的是極大的全量候選集。業界在解決這一問題的過程中,經歷了啟發式規則類召回、協同過濾類召回、模型類召回等多個階段。近年來,隨着機器學習,尤其是深度學習技術的發展,學術界及工業界已經全面進入到了 model-based 召回算法的研究與應用階段。目前,業界存在兩種主流的模型召回解決思路:兩段式解決方案和一段式解決方案。其中以向量檢索為代表的兩段式解決方案將模型結構限定為雙塔結構,然後通過高效的大規模內積近鄰檢索來完成 Topk 查詢。其主要問題是模型能力受到了較強的限制,因此模型能力天花板受限。為了突破模型結構的束縛,一些同時建模索引結構與模型的一段式召回方案被提出,其中以我們阿里媽媽展示廣告團隊此前提出的 TDM 系列算法為代表,通過顯式建模索引結構來提供高效的剪枝能力,減少在線打分量進而承載複雜模型,打開了召回精度的天花板。
在持續的大規模召回算法探索與迭代過程中,我們逐漸發現,類似 TDM 的一段式解決方案,在具備高精度召回能力的同時,由於索引結構與模型訓練的強耦合,導致離在線鏈路過於厚重,對維護、迭代以及快速的業務支持帶來了比較大的挑戰。因此在2021年,我們一直在思考的一個主題是:有沒有一種更進一步的召回解決方案,能在支持複雜模型的同時,實現對模型訓練與索引結構學習的解耦。基於這一理念,我們研發了二向箔算法體系,在保留複雜模型召回能力的同時,將索引學習和模型訓練解耦,提供了輕量化的任意複雜模型召回解決方案。二向箔算法體系已在阿里媽媽展示廣告業務中全量上線應用,成功支持了雙十一大促,相關算法升級帶來了信息流核心商業化場景 RPM+3.1%/CTR+2.4% 的業務效果提升。
▐2. 模型召回的形式化目標及主流解法2.1 模型召回的形式化目標
召回模型技術由於其應用模式,天生具備「集合屬性」,即在單純的「預估」概念之上,還需要更進一步地基於預估結果從全量候選集中拿到優質子集。首先給召回模型技術的目標做一個簡單的形式化定義:假定函數 為一個針對用戶 和候選項 的價值度量函數,則召回目標可以定義為

其中 為全量候選集。總的來說,這一目標可以概括為:對於每一次請求,從候選集中找到給定價值度量下價值最高的一個子集。當然,在實際的召回系統與算法迭代中,也還存在一些啟發式的召回模式如 i2i 召回,以及對於集合的多樣性等指標要求等,本文暫不進行探討。從上述的召回目標定義中不難發現,召回階段的模型技術迭代,需要考慮兩個重要的問題:1)對於召回模型而言,如何通過更好的網絡結構、訓練樣本或loss設計,使得模型能更好地擬合或者反映真實的價值度量函數,即如何讓模型預估 更接近 ground truth 的 ;2)當訓練好的預估模型 給定時,如何得到更精準的 集合,即常規意義上的檢索問題。
業界的召回模型技術發展,在根據上述召回目標進行優化時,迭代出了兩種主流的解決思路。可將其概括為兩段式的解決方案和一段式的解決方案,接下來會進行一個簡單的介紹。
2.2 兩段式解決方案
所謂兩段式的解決方案,是將目標中的 部分和 訓練部分完全分開來考慮,其代表做法是向量檢索的模式,即通過特定的模型結構設計,將價值度量函數表達成用戶表徵向量與候選 item 向量內積計算的模式,然後通過高效的大規模內積近鄰檢索來完成 Topk 查詢。針對向量內積的 KNN 檢索,有不少通用高效且成熟的解決方案,如開源的 Faiss[1] 和阿里內部的 Proxima[2]。因此,對於兩段式的召回方案,大家迭代的重點一般都聚焦在模型結構、訓練樣本、損失函數的迭代上,比如:MIND[3]、ComiRec[4]、CurvLearn[5] 等優秀的工作,都是在這一框架下往不同的方向做了一些嘗試和突破,如用戶多興趣表徵、內積之外的相似度量空間等。
這類兩段式的召回解決方案,由於其對召回問題分階段的建模思路非常清晰,且各階段都有相對成熟的工具和方法來支持迭代,因此在實際系統中被廣泛使用。但是對於這一類建模方式,在原理上存在兩個不足:
1)第一階段向量形式的 模型訓練過程中,一般不會考慮第二階段檢索過程的精度損失,因此可能會導致近似近鄰檢索(ANN)的誤差較大,這也是通常所說的兩階段目標不一致的問題。針對這一問題,業界有一些工作已經嘗試解決,例如在模型訓練階段就把檢索誤差納入考慮[6]等。但是在實際應用中,即使訓練階段不考慮檢索誤差,一些ANN檢索工具如 Proxima[2] 一般都能將精度做到 95% 甚至更高。所以在實際應用中兩個階段目標不一致並不算是一個嚴重的問題;
2)由於 ANN 檢索的需求, 模型結構最終需要被設計成用戶向量與 item 向量之間直接計算的模式,而這一要求對模型能力造成了較大的限制。事實上,如果不考慮檢索模式對模型結構的要求,召回模型結構設計與後鏈路的一些模型如點擊率、轉化率預估模型等,可能並沒有太本質的差異,但正是由於向量結構限制的存在,使得召回模型能力的天花板受到了較大限制。雖然目前還沒有發現嚴格的證明與推導,能夠論證向量結構到底在多大程度上影響了模型能力,但很多的實踐結果都表明了這一限制切實存在且影響很大。下圖中,我們給了一個簡單的實驗數據驗證,來說明模型結構限制對模型能力的影響程度。不難發現,當結構從內積升級成帶 target attention 的 DIN 結構後,模型精度有了一個大的提升。
2.3 一段式解決方案
鑑於兩段式解法存在的目標不一致、模型結構受限的問題,業界在技術迭代的過程中,也發展出了一段式的召回解決方案,其中代表性的工作為我們團隊之前提出的 TDM 系列算法[7-9]和字節跳動提出的 Deep Retrieval 算法[10]。所謂的「一段式」,是相較兩段式的價值度量模型訓練、Topk 檢索分開考慮而言,直接面向檢索目標來同時學習索引結構和檢索模型。這類方法一個比較大的特點是需要定義「參數化的索引結構」,並在訓練中和模型進行同步優化。像 TDM 中的樹結構、DR 中的多層編碼結構,以及索引結構中虛擬節點的 embedding,都屬於索引結構參數的一部分。此外,在 TDM、DR 中,item 與樹的葉節點、與最底層編碼節點之間的掛載關係映射函數,同樣屬於索引結構參數的一部分,是需要通過訓練過程來優化的。正是由於索引結構與模型聯合優化的模式存在,這類一段式解決方案通常不存在兩階段目標不一致的問題。同時,顯式建模的檢索過程往往能實現高效的候選集剪枝,所以可以使用計算力要求更高的複雜模型結構,而不局限於向量計算的模式。

一段式的解決方案同時解決了兩段式中存在的兩階段目標不一致、模型結構受限兩大問題,但在長期實踐過程中,也發現了這一方式存在的不足,主要也是有兩點:

鑽石舞台 發表在 痞客邦 留言(0) 人氣()



鑽石舞台 發表在 痞客邦 留言(0) 人氣()


No.06

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

作者:曾廣顏

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

作者:南錦林

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

作者:蔣千璐

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

B&T 風電場集群在廣平落成

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

根據一項新的全球預測,到 2030 年的十年,建築業將成為全球經濟增長的引擎,其產出預計將比到 2020 年的十年高出 35%。
《建築的未來》一書的作者說,從現在到 2030 年,被壓抑的家庭儲蓄、新冠疫情刺激計劃和人口增長將共同推動年均增長 3.6%,推動建築業的擴張領先於製造業和服務業的增長。由牛津經濟研究院和 Marsh McLennan 公司 Marsh 和 Guy Carpenter 製作的預測。
增長將集中在少數幾個國家,只有四個國家——中國、印度、美國和印度尼西亞——占預計全球擴張的 58% 左右。
然而,該預測包含一些意外,例如隨着英國大型項目的啟動,英國基礎設施的平均年增長率為 3.7%,可與中國匹敵。
牛津經濟研究院全球基礎設施主管、該報告的主要作者格雷厄姆羅賓遜表示,看到建築業在持續一段時間內超過服務業和製造業的增長是不尋常的。
「但考慮到政府在基礎設施方面的刺激支出史無前例的性質,以及新冠肺炎疫情爆發後家庭儲蓄過剩的釋放,建築業有望在未來十年為全球經濟提供動力也就不足為奇了,」他補充道。
作者表示,這十年的額外產出將達到 4.5 萬億美元,到 2030 年建築產出將達到 15.2 萬億美元,占全球 GDP 的 13.5%。
牛津經濟研究院行業服務部董事總經理、該報告的作者傑里米倫納德說:「發達經濟體已經積累了大量的家庭過剩儲蓄。」 「在北美,我們估計超額儲蓄遠遠超過 GDP 的 10%。即使在非常保守地估計將花費多少超額儲蓄時,到 2022 年,大多數發達國家的增長情況仍將強勁。」 他們表示,增長將從今年開始,在美國 1.2 萬億美元的兩黨基礎設施法案等政府刺激計劃的推動下,預計 2021 年全球產量將增長 6.6%。這組作者說,拉丁美洲今年將出現近兩位數的增長。
到 2030 年,中國和美國將位居全球年產量榜首,但報告預測 2020 年的現狀將發生變化。印度將成為第三大,在 2023 年超過日本,而印度尼西亞將在 2030 年超越德國、英國和日本成為第四大。
英國將在 2023 年超過德國,並保持第六位,因為它將在 2024 年被印度尼西亞超過。
同時,該報告預測,永久入境移民將推動整個盎格魯圈和其他發達國家的建築需求,而不斷增長的工作年齡人口將刺激工作場所建設,逐步返回城市中心將導致更多的多戶住宅建設。
報告指出,氣候變化和淨零競爭是建設面臨的最大挑戰,預計將推動新的解構機會,而 ESG 相關資本在 2020 年增長 28%,主要是由於資金流入可持續發展相關策略。
建築業將成為經濟增長和從 COVID-19 復甦的全球引擎 2020 年全球建築業產出為 10.7 萬億美元1,我們預計這一數字將在 2020 年至 2030 年間增長 42% 或 4.5 萬億美元,達到 15.2 萬億美元。全球建築業將成為推動經濟增長和從 COVID-19 復甦的全球引擎。
短期來看,到 2025 年,全球建築產值預計將達到 13.3 萬億美元——從 2020 年開始的五年內將增加 2.6 萬億美元的產值。
從 2020 年到 2030 年,亞太地區的建築產值增長將占到 2.5 萬億美元,到 2030 年將增長 50% 以上,成為一個 7.4 萬億美元的市場。
從 2020 年到 2030 年,北美的建築產值將增長 32%,即 5800 億美元,到 2030 年達到 2.4 萬億美元。
預計西歐在 2020 年至 2030 年間將增長 23%,並有望在 2030 年將建築產值推高至 2.5 萬億美元。
到 2030 年的十年間,建築業的增長將高於製造業或服務業 預計到 2030 年的十年間,建築業產出的年均增長率將達到 3.6%——高於製造業或服務業。
預計建築產出在 2020 年至 2025 年的五年內平均增長 4.5%——再次高於製造業或服務業,並受到新冠疫情影響的急劇復甦和政府的巨大刺激支持的推動。預計累積超額家庭儲蓄的支出將促進這種增長。
限制活動水平並導致建築業通脹飆升的供應鏈瓶頸預計將是暫時的,但對我們的預測構成風險。
人口增長將推動新興市場的建築需求增長將受到新興國家人口增長和城市化推動基礎設施和住宅建設需求的推動。
永久入境移民將支持發達國家的建築需求 向盎格魯圈(美國、英國、澳大利亞、加拿大和新西蘭)以及德國和其他經合組織國家的永久入境移民將有助於支持這些發達國家的需求。
不斷增長的工作年齡人口有助於推動工作場所建設的需求 印度和印度尼西亞以及加拿大和澳大利亞等國家工作年齡人口的增長將支持工作場所建設的需求,我們預計對工業和物流空間的更高需求將支持在線業務的增長 零售和製造。
回歸城市中心將支持多戶住宅的增長
在新冠疫情結束之後,向城市中心的轉變有望逐漸恢復勢頭,並將支持多戶住宅建設的增長。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()