機器之心 - 瀾舟科技創始人周明：從感知智能跨越到認知智能，NLP領域要做哪些創新？－鑽石舞台

Apr 04 Mon 2022 22:00
機器之心 - 瀾舟科技創始人周明：從感知智能跨越到認知智能，NLP領域要做哪些創新？

演講：周明

編輯：杜偉

在自然語言領域，感知智能之後的下一個窗口是什麼呢？瀾舟科技創始人周明對「認知智能」的發展前景和需要解決的問題做了詳細的綜述和展望。

3月23日，機器之心AI科技年會在線上召開。在下午的人工智能論壇上，創新工場首席科學家、瀾舟科技創始人、ACL前主席和CCF副理事長周明做了主題為《認知智能的創新時代》的演講。

演講視頻回顧（點擊「閱讀原文」也可觀看）：

https://www.bilibili.com/video/BV15Z4y1B76d

機器之心對演講內容進行了不改變原意的整理。

感謝機器之心的推薦，有這樣的機會向大家介紹一下我們在瀾舟科技所從事認知智能的想法，我的演講題目是「認知智能的創新時代」。

大家都知道人工智能經過過去幾十年的發展，經歷了起起伏伏。從最早的圖靈測試到達特茅斯會議，帶來了AI的起源，然後是 60 年代的專家系統，接着人工智能很不幸地進入了第一次冬天，大家都不太信人工智能了。到 80年代，日本第五代計算機的興起帶來了新的希望，比如Prolog編程語言等。但隨後很快又進入了人工智能的第二個冬天。

到90年代，機器學習開始興起，即基於數據驅動做統計機器學習。當時統計機器翻譯等領域也都開始實用化。人工智能真正飛躍源於深度學習的崛起，大概在 2006 年。2016 年出現一個里程碑——ImageNet 評測超過人類。2017年，AlphaGO戰勝人類圍棋冠軍。對自然語言來講，2018年預訓練模型開始興起，以及後來AlphaFold高精度預測蛋白質結構。所有這些都是人工智能發展歷程的里程碑。

總的來講，人工智能技術大概分為兩個流派。第一個流派是人工智能前期基於符號計算的流派，第二個流派是以最近深度學習為代表的神經網絡流派。當然，這兩個流派各有千秋，前者可解釋性比較強，但是需要專家內醒，而且比較脆弱。後者依賴大數據，缺乏可解釋性。

無論如何，最近幾年深度學習帶來的人工智能技術深深改變了人類的生活，從圖像到語音到自然語言處理、知識圖譜、搜索和推薦都實現大幅提升，並且自動駕駛、安防、自動翻譯、醫療診斷等熱門技術深深融入到了人們的生活。

我們是從事自然語言理解的，關心的是在感知智能之後自然語言的機會在哪裡？我這裡在判斷感知智能之後的認知智能開始崛起，推動了產業的發展。

這裡有幾個關鍵點。第一個關鍵點是最近基於預訓練模型的研究推動了很多自然語言處理任務的飛躍，其中一個代表性工作是 2019 年穀歌用Bert預訓練模型做閱讀理解，超過了人類的標註水平。再加上知識圖譜和推理領域的一些進步，人們對自然語言為代表的認知智能的崛起充滿了期待。

認知智能到底要解決什麼問題呢？實際上，認知智能要解決語言理解、問題求解、輔助決策和預測規劃問題，它還有非常廣泛的應用，從機器翻譯到搜索、聊天、專家系統、廣告、情感分析、對話、信息抽取、故障診斷、推理、知識圖譜、情感計算等。

有了認知智能，人們就可以從大數據出發，走到信息檢索，走到知識和推理，再走到洞見的發現，基於大數據充分地加強智能引擎，促進各行各業的數字化轉型，推動業務的升級。

瀾舟科技在認知智能領域做了什麼?

我們在創新工場孵化了一個團隊——瀾舟科技，旨在推動認知智能的發展。

我們首先做了預訓練模型，它是基於自研的孟子輕量化模型，可以處理多語言和多模態，同時支持理解和生成，通過定製來滿足不同領域和不同場景的需求。

然後在預訓練的基礎上做一系列自然語言處理任務。以機器翻譯為例，我們用預訓練模型和多語言聯合訓練，加上術語識別和翻譯的技術，實現了以中文為中心的世界主要語言之間的翻譯，而且在很多垂直領域都做到了業界頂尖的水平，通過與傳神等公司的合作，幫助譯員提高生產效率。

第三個是文本生成。所謂文本生成，用戶有一些關鍵詞或者是一些題目，讓電腦生成一篇文章甚至一篇小說。我們用了自研的預訓練模型，在通用和領域大數據的支撐下開發了一個交互式可控文本生成技術。用戶可以指定關鍵詞或知識單元或應用場景來生成一篇文本，應用於營銷文案生成（與數說故事—容徽公司合作）、新聞摘要、小說或者劇本的寫作等。

第四個是搜索引擎。我們基於預訓練模型從頭開始做一個新的搜索引擎。20 年以前，大家都基於 TF-IDF 人工定義了很多的特徵（feature），比如很多搜索引擎用了上萬個特徵來做排序。我們想通過預訓練模型不去手工定義這麼多特徵，通過端到端學習提高 relevance 和recall，同時使用知識圖譜實現從搜索到推理到洞見發現的全流程過程。我們想幫助金融、營銷、法律、政務等領域提高搜索加研判的效率。

2021 年，我們的工作獲得了HICOOL 國際創業大賽一等獎，參賽隊伍共4800支，有6個隊獲得了一等獎。並且，我們在人工智能和金融賽道獲得的是第一名。

但是，認知智能這件事聽起來很玄，你做了很多技術，各行各業怎麼用起來呢？這就涉及到認知智能的解決方案問題。我們的想法是這樣的。首先，最底層要構建大規模的預訓練模型，包括GPU的集群、數據、訓練、微調、壓縮、模型的輕量化等。在此基礎上，訓練單語言、多語言和多模態預訓練模型，支撐從搜索引擎到文本理解、機器翻譯、文本生成、語音識別和合成、圖像和視頻的標註和生成等各項任務。注意，它們都是從自然語言出發，通過多模態延伸到其他模態的理解和處理。

在此基礎上，我們通過一個柔性AI智能雲把自身的能力釋放出去。所謂柔性AI智能雲，就是用戶可以用拖拉拽的方式所見即所得，很快形成業務的組成。具體實踐中，可通過SaaS或者深度定製的方法得到相應的服務。

輕量化模型訓練之路

我們的大規模預訓練模型走了一條逆襲之路。很多公司都在追求大規模的預訓練模型，越大越好。而我們認為，預訓練模型到了一定程度可能要做得更加精，更加准，更加輕量化，用戶才可以很容易地實施。

這裡給大家介紹一下大規模預訓練模型的大概思路。第一你得有大規模的海量文本，也要有大規模算力去計算一個語言模型。這個語言模型還得針對下游任務進行微調，有時大家也在研究不需要微調的zero-shot方法，像GPT-3，然後去完成一些下游任務。這種方法的好處是解決了碎片化的問題，你只要有數據來訓練模型，這個模型就能通過遷移學習的過程，在處理新任務的時候對較小的標註數據集做微調，從而達到相對比較高的水準。

這種新範式帶來了自然語言生產效率的大幅度提高，也標誌着NLP進入到了工業化和實施的階段，這無疑是一件好事。所以大家都在研究預訓練模型，現在主要的模型有 Encoder模式（比如Bert）、Decoder模式（比如GPT）和 Encoder-Decoder模式（比如T5）。

現在很多預訓練模型都是遵循這些流派。大家的思路無外乎是，要麼去研究更多數據或者模型更大，要麼去研究更加高效的預訓練方法，要麼研究如何用知識來增強預訓練模型，或者研究小樣本學習和統一的微調機制等。

我們為什麼要關注輕量化模型呢？模型的訓練代價非常之高，如下圖所示，據報道最開始訓練一個GPT-3模型需要 460萬美金，當然現在這個數字要小很多，但依然花費很高。過去幾年，預訓練模型的參數增長了不止三個數量級，硬件能力雖然也在增長，但其速度遠遠低於模型參數量的增長速度，所以訓練費用仍然上升了兩個數量級。

我們很多業界的同仁都在研究如何降低訓練成本，但依然是一個很大的數字。訓練的成本主要考慮如下幾個因素：模型參數量、GPU和TPU算力以及數據量。在實際任務中，大模型適配下游任務的過程中，實施的代價比較大，用戶也不能承受買那麼多GPU來做推理。有鑑於此，我們需要降低成本，提高訓練能力，加快訓練速度，研究輕量化模型現在是我們瀾舟科技的一個重中之重。

不同的輕量化模型技術

我們已經研究了很多輕量化模型的技術，這裡簡要介紹一下。

第一個是模型優化，針對不同類型的預訓練，我們都做了相應的模型優化。

第二個是知識增強，包括基於實體抽取的增強、常識知識和領域知識的增強、事件依賴與因果關係和多模態世界知識的感知，從各個方面研究如何能夠使用相應的知識來在同樣大小的模型下使它的能力有所提高。我們也用基於語言學的知識來增強，比如用依存關係來增強這樣的模型。

最後，我們考慮了數據增強，包括領域知識增強，即基於領域文本在已有模型基礎上繼續訓練；任務數據增強，比如通過信息檢索獲得問答對，用於問答任務；跨語言資源增強，比如某種語言的資源比較多，通過多語言預訓練做語言的知識遷移，遷移到低資源的語言。

諸如此類的工作使得我們訓練的小模型的能力並不一定低，而且可以針對新的領域實現快速定製。目前，我們已經開源了四個小模型，包括文本分析、生成、圖像理解和金融模型。

下圖是我們20 21 年 7月到9月份參加 CLUE打榜的成績體現。我們的模型是10億參數，但是對比其他公司的百億和千億參數的模型，毫不遜色，甚至有所提升。在語義相似度等多項自然語言處理任務上，我們的模型在所有任務的綜合體現中都是第一名。

我們模型的特點是小，成本低，但是比較精，這得益於它引入了很多的知識。另一大特點是快，我們訓練一個新的模型幾天就可以完成，做一個新的任務半天就可以完成。然後比較專，每個領域每個任務都可以定製一個預訓練模型，這種專有程度肯定超過通用大模型的能力。

我們的孟子開源模型也榮獲了中國《50家最佳開源產品》。這些模型包括了Mengzi-BRET-base、Mengzi-BRET-base-fin、Mengzi-T5-base和Mengzi-Oscar-base。相關文檔和模型下載方式如下：

論文地址：https://arxiv.org/abs/2110.06696

項目地址：https://github.com/Langboat/Mengzi

能力擴展及相應模型

我們最近為這樣的模型增加了很多圖文的能力，如圖轉文，即一個圖片生成一段豐富的文字，來描寫這個圖片的內容。或者文轉圖，即給定一小段文字生成一個圖片。生成的效果還不錯，我們模型比較輕量化，所以用起來代價比較低。剛剛說到，我們的很多模型已經開源，很多人在開源社區里通過充分討論和互相交流來提高對預訓練模型的認知，也增強了他們的業務能力。

在此基礎上，我們研究了機器翻譯。這裡說的機器翻譯包括通用的翻譯，以中文為中心，涵蓋中英、中德、中法等主要語言之間的翻譯。下圖為中英翻譯在各個垂直領域的表現，很多是跟傳神公司合作的。跟目前非常流行的翻譯相比有不錯的提高。無論是在金融、汽車、法律、合同、機械、工程、石油、電力等方面，現在都是居於一流的水平。

基於孟子預訓練模型，我們也在做文本生成領域的技術研究。我們研究可控文本生成，可控意味着用戶可以輸入主題、關鍵詞、知識圖譜、風格、人設等。我們的系統就要生成包含用戶這些信息，並真實體現用戶意圖的文本。我們管這個叫可控文本生成。

下圖為我們跟數說故事-容徽公司一起合作做的營銷文案生成範例。用戶輸入標題「讓您的肌膚重返18歲」，關鍵詞如「薑汁、美白、面膜」等，輸入一些知識圖譜，即用三元組來描述的事實點，用戶可以隨意輸入很多知識點或事實點。我們的系統「孟子」生成一篇比較流暢的營銷文案。

對比GPT等流行的模型，我們的模型有三個特點。第一生成的文本可能更加豐富，第二前後文更加連貫，第三體現用戶的輸入事實。GPT輸出的每句話可能都通順但前後句子不連貫或者說出了反事實的話。我們在這些方面都做了深入的研究並有所克服。

基於孟子預訓練模型，我們又做了新一代的行業搜索引擎，以金融搜索引擎為例。我們可以搜通用的股票股價信息，可以搜新聞、公告、年報，可以用問答方式得到新的事實點，也可以得到公司的財務信息。

其中一個特色是我們可以根據產業鏈和事件鏈來引導進行搜索。比如用戶輸入一個關鍵詞，我們搜索到一些結果。但是用戶想理解對產業鏈上下游的影響，我們可以根據這個產業鏈來生成新的搜索關鍵詞，用戶得到新的搜索結果。同時，用戶希望發現這篇搜索結果中有哪些新的事件或者重要事件，我們需要對事件進行抽取，然後根據事理圖譜進行上下滑動得到「這樣的事件會影響什麼樣的事件」，或「預示什麼樣的事件會發生。」

這樣，我們做了一個基於產業鏈和事件引導的搜索體驗，幫助投研人員來分析哪些重要事件出現的時候對產業鏈的影響，對下游的影響或者預示有哪些新的事件產生，從而採取一些行動。

基於我們預訓練模型的文本生成技術，我們也在做智能研報的生成。所謂智能研報，就是有些客戶提供一些主題，傳統的方法需要在互聯網上人工搜索證據和文檔，然後人工進行整合抽取。

我們想把這些過程全部自動化，所以給定一個主題，我們通過搜索得到很多相關的研報，然後基於孟子輕量化模型利用知識圖譜、小樣本學習和對比學習等做一些結構化事件的信息抽取、情感輿情分析、摘要生成、觀點研報和智能問答，把這些東西都做完了之後再組配起來形成一個研報。

大家可以看到下圖中的例子，比如給一個關鍵詞「新能源汽車」，通過瀾舟的搜索引擎，從互聯網上搜索到很多相關的研報或者新聞，通過整合就可以得到常見的問題對、事件抽取、摘要生成和輿情分析，然後所有這些內容輸入到我們的引擎中生成一個研報，包括標題、大綱及具體內容。

基於這樣的技術，我們就可以做「企業ESG社會責任報告生成」，道理也是一樣。用戶輸入某個公司的企業責任報告題目，根據這個報告的主題，自動地生成對應的寫作大綱，包括責任管理、市場績效、社會績效、環境績效、報告後記等，生成大標題、小標題，以及最後的總結和建議。

針對每個大綱的大標題和子標題，我們用信息抽取的方法抽出關鍵的信息，然後生成相應的文本，每個段落生成之後再形成整篇報告。

當然這些生成結果，不可能代替人工專家，還需要人工專家核實、修正和完善，確保無誤。我們希望AI能夠配合人類專家提升整個工作的效率。

認知智能未來的挑戰

最後講一下未來認知智能面臨的一些挑戰。

第一個挑戰是缺乏常識和推理。

大家可以看到下圖一個有趣的問題，比如事實為「特朗普是美國第五十四屆總統」。經過如下問答過程，你會發現人類甚至小孩都可以回答，但是有些機器回答不了。比如誰是美國總統？機器和人都可以回答。又如特朗普是美國最有權的人嗎？人可以回答，但是除非在文檔中出現了這樣的證據或話語，機器才能回答，否則回答不了。這裡有個推理，美國總統應該是美國最有權的人，這是常識。沒有這個常識，機器就回答不了這樣的問題。如何組織常識、利用常識進行推理，是目前預訓練模型所存在的一個缺陷。

第二個是在多輪對話中如何保證前後一致，這也是我們文本生成中遇到的一個挑戰，即前後句子不一致，比如說時間上不一致、空間不一致或邏輯上不一致等。

這些挑戰帶來了很多思考，包括認知智能在內的下一代人工智能應該怎麼做，做什麼，什麼是我們的重點。我這裡根據自己的認知列出了四個比較重要的問題。

第一個是可解釋性，對於現在我們的端對端學習，給一個輸入然後給出一個分類或一個結果，實際上沒有一個解釋，導致面對很多應用的時候用戶不敢用，比如在金融中的應用。

第二個小樣本學習，現在端對端學習需要很多的標註文本來進行學習，如果標註的語料比較小，學習的效果不好。這就需要解決小樣本學習問題。

第三個是推理問題，剛才說到有了知識圖譜或者常識，如何從輸入到輸出走出一個推理鏈條給出結論。

最後就是常識問題，前面提到了，這裡不再贅述。

這裡回顧一下，對於人工智能和認知智能而言，它們實際上有兩個階段。先說第一階段，利用符號來推理，它有輸入有輸出，有邏輯有推理。人們遇到一些不熟悉事實的時候，都會習慣做一些邏輯性的推理。這是System2。相比System2呢，System 1，就是現在深度學習的東西。利用經驗和數據就可以從一個輸入快速給出輸出，不需要一個深度推理過程，因而缺乏可解釋性。

如果把這兩者結合起來，則具備兩者的能力，既可以快速給出結果，又能給出背後的邏輯。但是，基於規則的這種符號體系不可微，所以沒有辦法根據輸出結果得到損失來調整網絡結構。而神經網絡可微但不具備可解釋性。

我在想能不能做一種基礎能力「Foundation Skill」的學習。一個啟發是人們做一件大事的時候，比如說推導一道數學題或者做一篇作文，它有很多基礎能力是以前在別的地方學過的，不需要針對一個新的任務做端對端學習。如果把人類的每一個基礎能力都做好，處理一個大任務的時候快速地拼在一起。如果能夠解決可微的問題，不管基礎能力是基於數據還是基於邏輯，都可以快速地拼接成一個大系統，從而有效地解決小樣本學習的問題。

所以，為了研究基於基礎能力的小樣本學習求解複雜推理問題，我們正在做美國司法考試LSAT的自動答題研究。LSAT具有分析推理、邏輯推理和閱讀邏輯三大問題。下圖示例中為分析推理題，已知有六個條件，問「如果某一件事成立，上面哪個答案是最有可能的」。

要解決這一問題，首先要做自然語言理解，把自然語言輸入變成一個邏輯表達式。第二步是需要一個推理，從初始狀態出發，經過一步步的推理，得到可能的終態。然後從可能的終態再去看滿足約束條件的多和少，把滿足約束條件多的答案抽取出來。

這裡如何來解決自然語言理解問題呢？因為這是小樣本學習，LSAT 總共只有幾千道題，所以從端到端學習邏輯理解是非常困難的。那麼，我們能不能用剛才所說的基礎能力加上微調的能力去學習呢？也就是說分詞、語義表達、邏輯表達生成都在別的渠道或者用別的數據學完了，在這裡針對這樣一個新的數據集做快速的適配和遷移學習，看能不能解決這樣的問題。這裡也涉及到常識如何嵌入到整個的邏輯理解或者推理過程之中。

總之，LSAT 是一個非常好的數據集，來幫助大家進行複雜推理任務的研究。

最後，我總結一下，認知智能現在發展的越來越好，大家也對它充滿了期待。現在有個很好的機遇，因為預訓練模型加微調大大解決了碎片化問題。而SaaS模式希望能夠解決最後一公里把服務交到用戶手中的問題。當然，機會與挑戰共存，最大的挑戰是知識化、輕量化和倫理道德的問題。我們還需要解決小樣本學習、可解釋和常識推理，這是未來5-10年的發展目標。瀾舟現在做了一些工作，即融合神經網絡和符號系統，加上一些基礎能力和微調的設想，試圖來推進相關的實驗。

瀾舟科技是一家認知智能公司，針對商業場景做數字化轉型，以自然語言處理為基礎提供商業洞見類的產品，主要的產品包括基於預訓練模型的功能引擎，像搜索、生成、翻譯、對話以及針對垂直行業場景的SaaS產品。我們有志於成為世界上NLP的頂尖技術公司。

我們常年招聘研究員、工程師、產品經理和實習生，有興趣大家可以訪問我們的網站獲得詳細信息。