close

(本文閱讀時間:11分鐘)


編者按:問世30多年來,Windows 已經成為全球億萬人工作、生活、創作時不可或缺的絕佳夥伴。2021年10月5日,微軟產品大家庭正式迎來了最新成員 Windows 11。在如今混合辦公、遠程協作成為新常態的背景下,新一代 Windows 11 創新的功能設計、高效易用的體驗、豐富精彩的內容,將更好地幫助用戶提高生產力、發揮創造力。而在 Windows 11 個性化、智能化功能的背後,既有微軟產品團隊努力的成果,也離不開微軟研究部門的技術支持。那麼,這些豐富實用的新功能是如何實現的?微軟亞洲研究的基礎研究創新成果又是如何轉化到一線產品中的?


2021年10月5日正式發布的 Windows 11,小到「開始」菜單、任務欄的位置、圖標和字體的設計,大到自動化推薦、語音控制等功能,都讓用戶與之所愛更近一步。在更智能化、人性化的 Windows 11 系統中,多個基於微軟亞洲研究院的技術創新實現的功能,為用戶帶來了全新的使用體驗。

在這些技術創新中,除了底層的技術支持之外,還有一些用戶熟悉的功能,比如從 Windows 7 開始,Windows 產品部門就基於微軟亞洲研究院提供的算法,不斷提升中文、日文、韓文的手寫識別功能。而在最新版本 Windows 11 的「新聞與興趣(News and Interests)」和「語音訪問(Voice Access)」兩個功能上,研究院又進一步優化了底層模型,對算法進行了創新,這背後是微軟亞洲研究院在推薦算法、深度學習、自然語言處理等領域深耕多年的積累。

深度學習與 NLP 的融合,
讓 Windows 11「新聞與興趣」知你所需

新聞推薦屬於一種特殊的個性化推薦,相比於商品、電影等內容的推薦,新聞事件每時每刻都在更新,對於系統來說每條新聞都是全新的內容,這就使得系統無法獲得足夠的用戶交互數據來訓練推薦模型,因此,必須從新聞本身出發,加強對內容的理解。儘管之前也有針對新聞推薦的算法模型,但那些模型給用戶推薦的往往是同質化的新聞,極易造成用戶反感,難以精準匹配用戶對新聞的實際需求。

微軟亞洲研究院首席研究員謝幸表示,「新聞內容本身和閱讀新聞的用戶其實都可以用文本表示,推薦的準確與否本質上都可以看作是對這些文本語義理解的深度。過去的推薦系統要麼沒有使用深度學習技術,無法學習樣本數據的內在規律,要麼基於深度學習卻沒有結合自然語言處理(NLP)技術,無法對語義進行更深的理解。」因此,微軟亞洲研究院將最新的深度學習與 NLP 技術集成到了對用戶和新聞的建模中,大幅提升了推薦模型的性能和準確率。基於此模型,Windows 11 「新聞與興趣」功能實現了多樣化、個性化和更精準的新聞推薦,現在用戶可以通過 Windows 11 中的小組件等多種方式隨時看到他們最感興趣的新聞內容。

個性化新聞推薦的技術流程

具體來看,可以將這一推薦算法分成三層:

第一層是針對當前新聞內容本身文本的理解,實際上就是對自然語言的理解。這一層主要基於微軟圖靈通用語言表示模型,其核心模型和算法採用了研究院最新的統一語言預訓練模型 UniLM 和多語言預訓練模型 InfoXLM,這兩項技術在語言理解、生成和翻譯任務上都取得了領先的結果。

第二層是對用戶的理解,也就是圍繞用戶所展開的一系列文本理解,但又不只是簡單的文本整合。雖然可以將用戶看成一個已經瀏覽或閱讀了新聞的文本集合,但不能將所有文本簡單地進行拼接,系統還需要了解用戶閱讀的先後順序,以及由此形成的用戶興趣群組、對興趣重要性進行區分等等,這些都是對用戶的建模過程。當考慮這些因素時,用戶就由原來一系列標籤化的表示,轉變為在深度學習中的向量表示,從而極大地提升準確率。

舉例來說,我們可以按照不同的屬性類別給某個用戶打上諸如男性、本科畢業、居住在北京等標籤,這樣當一條受北京男性喜愛的新聞出現時,系統就會將其推送給相關用戶。然而,這種推薦方法只做了簡單的匹配,因為這些標籤並不能準確地描述個人特徵,比如無法明確說明他真的是北京人,也不知道用戶真正的興趣愛好是什麼。但深度學習則可以拋開標籤,將每一個人變成數字,也就是向量,通過計算向量之間的相似性來推薦內容。

按照此方式,每個人都可以被看作是高維空間中的一個點。新聞則是同一空間中的另一個點,這樣就可以直接比較用戶和新聞間的距離。我們可以想象,在一個空間中同時包含了眾多的用戶和新聞,與其中一個用戶比較近的自然就是他喜歡的新聞。

最後一層是排序。理論上可以將新聞推薦看作是對高維空間中用戶與新聞內容距離的計算,但實踐中還有更多的因素需要考慮,例如新聞推薦的多樣性、公平性、可解釋性等等。

通過將深度學習與 NLP 集成到新聞推薦系統中,Windows 11 可以更好地滿足用戶對新聞的需求。數據顯示,在所推薦的新聞上,用戶的實時點擊率得到了提升,瀏覽時長也有所增加。

該推薦算法具有較高的通用性,涉及到個性化搜索和推薦的領域,如微軟廣告、必應(Bing)搜索等場景都能應用。另外,基於推薦算法的研究,微軟亞洲研究院還與微軟新聞團隊聯合發布了迄今世界上最大的英文個性化新聞推薦數據集 MIND,為新聞推薦的研究建立了相對權威的評測標準。而且在2021年的 ACL 大會上,雙方團隊還合作構建了第一個可以離線評測個性化新聞標題生成方法的基準數據集 PENS(PErsonalized News headlineS)。

用語音操作電腦,微軟無障礙功能不斷精進

歷代 Windows 版本都慮到了無障礙增強功能,為不同類別的殘障人士提供支持和便利。而 Windows 11 中新增的輔助功能Voice Access(語音訪問),則讓包括行動不便人士在內的所有人都可以通過語音控制他們的電腦,編輯文本內容,如操作 Windows 系統的應用程序、瀏覽網頁、編寫郵件等。

微軟亞洲研究院主管研究員吳俁說,「Voice Access 功能使用的是一種端到端的 ASR(Automatic Speech Recognition 自動語音識別)技術。它將聲音模型與語言模型融合成統一的模型,不僅可以更準確地識別出用戶的指令,快速完成相應的任務,更重要的是降低了對計算資源的需求,更適合在筆記本電腦等終端設備上部署,即使在沒有互聯網的情況下,設備也能支持快速語音識別。」

如上圖所示,Voice Access 首先會將桌面的項目進行編號,然後通過如下的語音指令進行控制。

操作
語音指令
顯示項目編號
「Shownumbers」 或者「Show numbers here」
點擊某個編號對應的項目
「Click [number]」, 比如「Click 1」, 「Double click 1」, 「Right click 1」
隱藏某個編號對應的項目
「Hide Numbers,」 「Cancel」

早在2019年,微軟亞洲研究院就已和微軟 Azure 團隊的語音組合作開展了相關的語音識別研究。最初的 ASR 模型是聲學模型和語言模型的混合體,先由聲學模型把輸入的語音轉換為發音的最小單元音素,再用音素結合語言模型產生語音識別結果。由於模型體量較大,當時相關技術主要以 SaaS 模式部署在微軟 Azure 雲平台上供用戶使用。隨着研究員們對 ASR 技術的不斷探索、提升,微軟的產品部門希望升級後的 ASR 技術可以更多地應用在產品端,以支持弱勢群體更方便地使用相關產品。

然而,直接將大規模 ASR 模型部署在終端設備上並不現實。除了要將模型本身輕量化、提升運算速度外,在與 Azure 團隊語音組合作的過程中,研究員們也意識到在將技術轉化為產品時,優化模型不僅要聚焦準確率,還要以用戶體驗為第一優先原則。正如微軟亞洲研究院高級研究員劉樹傑所說,「我們做基礎研究的時候往往會把一些問題抽象出來,思考如何在一個點上發力把技術做到更好、更優。而產品部門的同事更多的是站在用戶的角度思考問題,比如用戶在什麼情況下對產品的滿意度更高,使用感受更好。」

在對端到端的 ASR 模型測試時,研究團隊和產品團隊就遇到了不同思維的相互碰撞。劉樹傑介紹到,研究員們注重的是客觀指標,會在大數據集上做客觀指標的測試,而轉化為產品後,產品經理更加注重的是使用者的主觀感受。因此,當 Windows 11 在微軟 Surface 以及各 PC 廠商的電腦上運行時,ASR 模型也要做相應的優化和適配。

開發過程中,微軟亞洲研究院與 Azure 團隊語音組和 Windows 產品部門緊密合作,反覆溝通,通過不斷迭代,使得ASR 模型在多設備上的測試結果都達到了人類正常說話時的水平。儘管目前模型只支持美式英語的語音識別,但該模型具有跨語言通用性,後續只需利用不同語言的數據對模型展開訓練,就能夠實現跨語言的語音識別與操控。

得益於深度學習的發展和充足的語料支持,自動語音識別 ASR 在大語種上取得了非常優異的性能。然而,世界上還有很多語言缺少語料數據,這些小語種、地方方言的使用人數較少,收集相應的語言數據會耗費大量的人力和資源,給相應 ASR 的實現造成了一定困難。為了解決這一問題,微軟亞洲研究院提出了一種極低資源下語音識別的新方法 WavLM,尤其是針對 ASR 的預訓練模型,其各項指標一直在 SUPERB 評測數據集排行榜上位列第一(https://superbbenchmark.org/leaderboard)。

WavLM 在 SUPERB Leaderboard 上的表現

一直以來,微軟始終重視無障礙(Accessibility)方面的建設,目的是讓產品、設備、服務和環境的設計更加方便地為殘障人士所使用。下一步,微軟亞洲研究院還將聯合微軟的產品團隊將類似的技術擴展到更多的產品和應用場景中,打破溝通與使用障礙,予力每一人。

煥然一新的桌面、簡潔的設計、舒適的布局和靈活的體驗,無一不彰顯新一代操作系統 Windows 11 的高效與創新。無論是面向工作、學習、生活、遊戲,還是藝術創作、編程開發,Windows 11 都為用戶提供了一個更適合的模式。面對混合辦公新常態以及新的用戶需求,微軟亞洲研究院也會持續將最新的科研成果輸出到微軟的產品中,幫助更多用戶提高生產力,激發創作靈感!



你也許還想看:


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()