系列活動之一:智源指數CUGE發布會 劉知遠 清華大學,智源青年科學家報告題目:智源指數CUGE——全面均衡的機器中文語言能力評測基準報告摘要:實現通用機器語言能力是自然語言處理的核心目標。為了有效評測通用機器語言能力,需要兼具科學性和系統性的評測基準。近年來,預訓練語言模型極大地提升了通用機器語言能力,但是如何有效評測這些預訓練模型的性能,仍然缺少系統科學的評測標準。為此,北京智源人工智能研究院自然語言處理方向學者牽頭構建了面向中文語言理解和生成的評測基準——智源指數 (CUGE)。智源指數具有以下特點:(1) 層次化基準框架,以語言能力-任務-數據集的層次結構選擇和組織代表性數據集,具有更好的系統性。(2) 歸一化評分策略,依託層次化框架,提供模型在不同能力層次的歸一化性能評分。依託智源指數對相關預訓練語言模型的評測結果表明,現有預訓練語言模型距離實現通用語言智能仍有較大的改進空間。講者簡介:劉知遠,清華大學計算機系副教授、博士生導師。主要研究方向為自然語言處理、知識圖譜和社會計算。2011年獲得清華大學博士學位,已在ACL、EMNLP、IJCAI、AAAI等人工智能領域的著名國際期刊和會議發表相關論文100餘篇,Google Scholar統計引用超過18,000次。曾獲教育部自然科學一等獎(第2完成人)、中國中文信息學會錢偉長中文信息處理科學技術獎一等獎(第2完成人)、中國中文信息學會漢王青年創新獎,入選國家萬人計劃青年拔尖人才、北京智源研究院青年科學家、2020年Elsevier中國高被引學者、《麻省理工科技評論》中國區35歲以下科技創新35人榜單、中國科協青年人才托舉工程。擔任中文信息學會青年工作委員會主任,中文信息學會社會媒體處理專委會秘書長,期刊AI Open副主編,ACL、EMNLP、WWW、CIKM、COLING領域主席。 楊爾弘北京語言大學,智源學者 報告題目:漢語學習者文本多維標註數據集報告摘要:智能輔助語言學習是跨自然語言理解與生成兩個方面的研究任務,對學習者產生的文本進行錯誤識別、並修改成為符合母語習慣的語句,需要知識指導。本數據集包含2000餘篇漢語學習者文本,共計30000餘句,由北京語言大學BLCU-ICALL小組組織開發,召集具有漢語國際教育專業背景的標註人員對文本中的錯誤進行標註、改正,並給出語句的流利程度,形成具有多維信息的標註數據集,可服務於漢語自動語法糾錯與評判,第二語言習得等研究。本報告將介紹數據集的來源、標註情況、數據質量。講者簡介:楊爾弘,北京語言大學教授、博士生導師,語言資源高精尖創新中心常務副主任,國家語言資源監測與研究平面媒體語言中心主任,兼任《中文信息學報》副主編。研究方向為語言資源建設、語言監測。每年參與國家語委組編的年度綠皮書《中國語言生活狀況報告》。獲得省部級科技進步一等獎1項。譚紅葉山西大學報告題目:GCRC:面向可解釋評測的高考閱讀理解數據集報告摘要:目前,在眾多公開可用數據集的驅動下機器閱讀理解模型取得了令人振奮的進展,但模型所具備的真實語言理解能力與人的期望相差甚遠,且大多數據集提供的是「黑盒」(black-box)評價,不能診斷系統是否基於正確的推理過程獲得答案。為了緩解這些問題並促進機器智能向類人智能邁進,山西大學在國家重點研發計劃項目「基於大數據的類人智能關鍵技術與系統」的支持下,面向題目類型更豐富、更具挑戰性的高考閱讀理解任務做了重點研究,並嘗試基於人的標準化測試對機器智能進行有效和實用的評價。我們收集近10年高考閱讀理解測試題構建了一個包含5000多篇文本、8700多道選擇題(約1.5萬個選項)的數據集GCRC(A New MRC Dataset from Gaokao Chinesefor Explainable Evaluation)。數據集標註了三種信息:句子級支持事實、干擾項(不正確選項)錯誤原因、回答問題所需推理能力,從中間推理、模型能力兩方面進行可解釋評價。相關實驗表明該數據集具有更大挑戰性,對於以可解釋方式診斷系統局限性非常有用,有助於研究人員未來開發新的機器學習和推理方法解決這些挑戰性問題。講者簡介:山西大學計算機與信息技術學院教授、博士生導師。中國中文信息學會語言與知識計算專委會委員、醫療健康與生物信息處理專委會委員。主要研究方向為自然語言處理,主持國家自然科學基金項目3項,參與國家新一代人工智能重大項目、國家重點研發計劃項目、863計劃項目、國家自然科學基金重點項目多項。作為骨幹成員撰寫專著1部,獲山西省科技進步一等獎1項、山西省教學成果特等獎1項。 系列活動之二:自然語言處理智源學者成果報告會 穗志方北京大學,智源學者報告題目:自然語言處理評測中的問題與對策報告摘要:近年來新的評測數據集和評測任務不斷被提出,各類評測任務如火如荼。但是,現有評測在科學性和客觀性上也暴露出了一系列問題。不適當的評測將會限制自然語言處理技術的進步。本報告將分析NLP評測的現狀和存在的問題,並提出對NLP評測的設想與展望。講者簡介:北京大學信息科學技術學院教授、博士生導師,計算語言學研究所副所長,計算語言學教育部重點實驗室主任,中國中文信息學會理事。研究領域為:自然語言處理、文本知識工程和知識圖譜構建及應用。 劉洋清華大學,智源學者報告題目:邁向通用連續型知識庫報告摘要:近年來,隨着大規模預訓練模型的快速發展,以深度學習為代表的人工智能呈現出兩個重要態勢。第一,神經網絡從數據中自動獲取連續型知識的能力顯著增強。第二,能夠統一處理多個應用任務的通用模型初顯端倪。由此引發一個重要的科學問題是:能否建立一個通用連續型知識庫,將不同任務、不同神經網絡模型中蘊含的連續型知識進行集中存儲、更新與利用?報告將介紹我們在構建通用連續型知識庫的初步進展。我們提出了一種通用連續型知識庫架構,支持不同任務、不同模型中連續型知識的導入、合併與導出。實驗結果表明,將BERT與GPT-2導入通用連續型知識庫後能夠獲得比兩者更強的表達能力。講者簡介:清華大學計算機科學與技術系長聘教授,清華大學智能產業研究院副院長,國家傑出青年基金獲得者。擔任清華-華潤人工智能與生命健康聯合研究中心主任、中國人工智能學會組織工作委員會副秘書長、中國中文信息學會計算語言學專委會常務副主任。研究方向是自然語言處理,獲得國家科技進步二等獎1項、省部級與一級學會科技獎勵4項、重要國際會議優秀論文獎2項。曾擔任清華大學計算機科學與技術系智能技術與系統實驗室主任、國際計算語言學學會亞太分會執委兼秘書長、Computational Linguistics編委、中國中文信息學會青年工作委員會主任。 萬小軍北京大學,智源學者報告題目:文本複述生成報告摘要:文本複述生成是自然語言生成領域的一項重要任務,在保持意義基本不變的條件下實現文本表達形式的改變,對很多NLP下游任務都能起到促進作用,同時也是實現個性化、差異化信息傳播的重要技術手段。本報告將介紹我們在文本複述生成方面的研究進展,包括語句級複述生成以及篇章級複述生成。講者簡介:北京大學王選計算機研究所與人工智能研究院 教授/研究員/博士生導師,在北京大學獲得學士、碩士與博士學位。研究方向為自然語言處理與文本挖掘,當前研究興趣包括自動文摘與文本生成、情感分析與語義計算、多語言與多模態NLP等。曾擔任計算語言學重要國際期刊Computational Linguistics編委、國際會議EMNLP-IJCNLP 2019程序委員會主席,現任CCF-NLP專委會秘書長、中文信息學會NLGIW專委會副主任、TACL/ARR執行編輯、NLE編委、JCST編委,多次擔任相關領域重要國際會議(ACL、NAACL、EMNLP、EACL,AACL)高級領域主席或領域主席。榮獲ACL2017傑出論文獎、IJCAI 2018傑出論文獎。研製推出多款AI寫作機器人,如小明、小南、小柯等,應用於多家媒體單位。 系列活動之三:OpenHowNet前沿技術研討會 董強知網(HowNet)知識系統共同發明人嘉賓簡介:董強,HowNet知識系統共同發明人,自1997年至今一直在致力於知網知識系統(HowNet Knowledge System)研究。知網知識系統是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關係為基本內容的常識知識庫。目前知網知識系統已經被越來越多的大學與機構認可並得到廣泛的應用。2012年12月榮獲"錢偉長中文信息處理科學技術獎"一等獎。現任HowNet Technology Inc技術總監,曾任中國科學院計算機語言信息工程研究中心語言知識研究室主任。 李涓子清華大學,智源學者報告題目:Hownet知網與語義計算報告摘要:Hownet是由董振東、董強先生父子畢三十年之功建立的一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間、以及概念所具有的屬性之間的關係為基本內容的語言和常識知識庫。Hownet是一個面向意義計算的系統,為自然語言深度理解提供了豐富的語義。本報告將介紹Hownet中義原及其分類體系的定義、概念的義原表達以及Hownet對中文信息結構的組合語義表達。講者簡介:清華大學長聘教授,清華大學人工智能研究院知識智能中心主任,中國中文信息學會語言與知識計算專委會主任。研究方向為知識工程和新聞挖掘。近年來在重要國際會議和重要學術期刊上發表論文100餘篇,谷歌學術引用1萬餘次;編著出版《Mining User Generated Content》,《Semantic Mining in Social Networks》。獲得2020年國家科技進步二等獎,2017年北京市科技進步一等獎,2013年人工智能學會科技進步一等獎,2011年王選新聞科學技術進步獎一等獎。 豈凡超清華大學報告題目:OpenHowNet2019-2021更新情況報告摘要:自OpenHowNet在2019年發布後,2年間被廣泛應用於多項自然語言處理及其他任務之中,此外近期OpenHowNet也完成了改版。本報告將簡單介紹OpenHowNet近兩年的應用情況,同時對新版OpenHowNet的改進之處進行說明。講者簡介:清華大學計算機系博士生,導師為孫茂松教授,主要研究方向為自然語言處理,尤其是義原知識庫及其應用。已在AAAI、ACL、EMNLP、TASLP等人工智能和自然語言處理領域國際頂級期刊或會議發表多篇論文,並多次擔任審稿人。曾獲「華為杯」第二屆中國研究生人工智能創新大賽全國總冠軍、第三屆中國AI+創新創業大賽:自然語言處理技術創新大賽第二名等。 王鳳玉清華大學報告題目:基於詞典的義原知識庫自動構建報告摘要:大部分語言沒有類似HowNet這樣的義原知識庫,這使得這些語言的自然語言處理無法受益於義原知識。本報告將簡單介紹一種基於詞典的全自動義原知識庫構建方法,由於詞典是常見的語言資源,該方法將有助於高效地構建更多語言的義原知識庫。講者簡介:清華大學計算機系碩士生,導師為劉知遠副教授,主要研究方向為自然語言處理。 葉奕寧清華大學報告題目:基於義原知識庫的無監督詞義消歧報告摘要:詞義消歧任務是從上下文中識別多義詞所對應的確切詞義。本報告將簡單介紹如何利用義原知識,在詞義消歧任務中引入預訓練模型進行無監督的詞義消歧。講者簡介:清華大學計算機系本科生,主要研究方向為自然語言處理。 辛欣北京理工大學報告題目:OpenHowNet詞內結構標註報告摘要:中文詞內部可用類似於句法的形式轉化成二叉樹結構。中文詞的二叉化可降低端到端的句法分析複雜度,也可為詞的語義表示提供結構支撐。已有工作中,中文詞二叉化主要通過部分標註樣本構建模型進行預測。本工作沿着已有工作進行擴展,思路是按照封閉詞與開放詞的維度對中文詞進行劃分,對於封閉詞進行手工標註,對開放詞進行模型預測。OpenHowNet是封閉詞庫的理想語言知識庫資源。因此,本工作以OpenHowNet作為中文封閉詞庫進行手工標註,將該庫中的中文詞二叉化。同時對於開放詞,通過標註好的數據構建預測模型並進行實驗。結合封閉詞和開放詞的不同處理途徑,形成中文詞的二叉化工具。講者簡介:辛欣,北京理工大學計算機學院副教授、博士生導師。主要研究方向為自然語言處理與知識工程,以融合深度學習的結構預測方法作為理論基礎。於清華大學獲得學士、碩士學位,於香港中文大學獲得博士學位。主持國家自科基金面上項目、青年項目,北京市自科基金面上項目等。以第一作者在ACL、IJCAI、AAAI、JCST、CIKM、WSDM等學術會議及期刊發表論文十餘篇。獲得2019吳文俊人工智能科學技術獎-自然科學獎二等獎(第四完成人)。中國計算機學會"自然語言處理專業委員會"委員,中國中文信息學會"語言與知識計算專委會"委員,微軟"鑄星計劃"訪問學者。 滕健松北京瀚語科技報告題目:基於HowNet文本解析器的落地及潛在應用報告摘要:依託獨有的HowNet知識庫和文本解析技術,北京瀚語科技有限公司為行業客戶提供具有語言學特色的詞法分析、句法分析、語義理解和其他文本解析等自然語言理解技術服務;助力客戶構建智能交互機器人、內容與信息抽取、用戶畫像、輿情分析與監控、大規模自然語言文本自動化處理等方面的應用;分享金融行業(頭部銀行)、黨政機關等典型落地應用案例,以及公安、司法、電力、醫療等行業應用的前景展望。 系列活動之四:自然語言處理青年科學家成果報告會 趙鑫中國人民大學,智源青年科學家報告題目:預訓練模型輕量化與健壯性報告摘要:大規模預訓練語言模型已經成為當前自然語言處理領域最重要的研究方向之一,有效提升了多種NLP任務的最好效果。本次報告將對結合講者最近在大規模預訓練語言模型的研究進展進行匯報,主要報告內容集中在兩個方面:(一)輕量化微調:使用物理領域的MPO分解技術來進行輕量化微調以及模型壓縮;(二)魯棒性:使用虛擬數據增廣技術提升增廣數據語義的豐富性以增強模型抗攻擊能力。講者簡介:趙鑫,現為中國人民大學高瓴人工智能學院長聘副教授。2014年7月於北京大學獲得博士學位,隨後進入中國人民大學工作至今。研究領域為信息檢索與自然語言處理,共計發表論文80餘篇。榮獲2020年吳文俊人工智能優秀青年獎、ECIR 2021時間檢驗獎(Test of Time Award)等,入選中國科協青年人才托舉工程、北京智源青年科學家、CCF-IEEE CS青年科學家。 韓先培中科院軟件所,智源青年科學家報告題目:面向信息抽取的端到端結構生成模型報告摘要:研究信息抽取是一個從文本到結構的轉換過程,由於信息抽取任務的多樣性、抽取結構的複雜性、以及抽取目標的需求依賴性,導致信息抽取模型一直難以實現統一的建模。本報告介紹報告人最近的幾個探索性工作,包括統一的生成式Text-to-Structure架構和以及基於prompt機制的可控信息抽取機制。講者簡介:韓先培,中科院軟件所研究員,擔任中文信息處理實驗室副主任。主要研究方向為信息抽取、知識圖譜及自然語言理解。承擔中科院戰略先導、科技創新2030課題、國家重點研發專項等十餘項課題。在ACL、SIGIR、IJCAI等重要國際會議發表論文60餘篇。擔任中國中文信息學會理事及語言與知識計算專業委員會副主任。入選國家優青、中國科協青年人才托舉計劃及北京智源青年科學家,相關成果獲中國中文信息學會漢王青年創新獎一等獎及科學技術獎一等獎。 張家俊中科院自動化所,智源青年科學家報告題目:多語言機器翻譯的參數共享機制報告摘要:機器翻譯技術發展至今,通常需要針對每個語言對(例如漢語到英語)構建一個機器翻譯模型,從而n個語言之間的互譯則需要構建n(n-1)個翻譯系統。由於模型參數規模龐大,這種設計方式不僅將導致訓練和部署耗費巨大的存儲和計算資源,而且也無法共享和利用相似語言之間的翻譯知識。基於編碼器和解碼器框架的神經機器翻譯使得多種語言共享編碼器或解碼器成為可能,多語言機器翻譯方法只需要一個模型便可同時處理多種語言,逐漸成為研究熱點。本次報告將對多語言機器翻譯的研究進展進行簡單回顧,主要介紹多語言機器翻譯中的參數共享機制,最後介紹我們最近提出的基於參數分化的多語言機器翻譯方法。講者簡介:張家俊,中國科學院自動化研究所研究員、博士生導師,主要研究方向為機器翻譯和自然語言處理,獲得國家優秀青年科學基金資助,入選中國科協首屆青年人才托舉工程和北京智源青年科學家。發表CCF-A/B類論文70餘篇,出版學術專著2部,6次獲得最佳/優秀論文獎,3次被評為IJCAI、ACL和NAACL的傑出SPC和審稿人。獲得錢偉長中文信息處理科學技術獎一等獎、青年創新獎一等獎、2019年新疆維吾爾自治區科技進步獎二等獎和2020年北京市科技進步獎一等獎。擔任中國中文信息學會機器翻譯專委會副主任、青年工作委員會副主任。曾擔任ACL/EMNLP/COLING的(資深)領域主席,擔任《Machine Intelligence Research》和《自動化學報》等期刊的編委。 孫栩北京大學,智源青年科學家報告題目:多模態語言理解與生成報告摘要:我們在多模態深度學習上進行了模態對齊和模型建構兩方面的探索。一方面,我們認為現有的模型只能在粗粒度的對象層級進行不同模態的對齊。據此,我們提出了關係一致性假設,並實驗驗證了假設的正確性,然後提出了一種正則化的訓練方法,增強模型在細粒度的關係層級的模態對齊能力;另一方面,我們通過實驗和理論分析,發現了網絡結構和訓練樣本之間梯度相似性的關係。利用該發現,我們提出了一種基於梯度核的無需訓練的神經網絡搜索算法。該算法可以在取得與之前算法準確率相差不大的前提下,縮減結構搜索算法所需的計算資源和耗費的運行時間。並且在圖像和語言模型上的實驗驗證了算法對模態的可遷移性。講者簡介:北京大學信息學院副教授、博士生導師。2010年於日本東京大學獲得計算機博士學位。先後在日本東京大學、美國康奈爾大學、香港理工大學擔任研究職位。研究方向為自然語言處理和機器學習,特別是自然語言生成、面向語言的深度學習。獲得香港求是科技基金會「求是傑出青年學者獎」、中國電子學會科學技術獎一等獎、COLING 2018最佳論文獎。 嚴睿中國人民大學,智源青年科學家報告題目:基於知識驅動的人機對話技術報告摘要:近年來,智能人機對話技術取得了長足的發展,也催生了一系列工業級產品,例如小米的小愛同學,微軟小冰,阿里小蜜,等等。智能人機對話的應用為人們展示了未來想象的廣闊空間,同時促進了對話技術的蓬勃發展。縱觀當前的對話系統,存在着一個普遍的瓶頸,即知識的缺乏會導致人機對話的智能化水平與人-人對話的水平相去甚遠。在本次報告中,我們將探討如何將知識的學習融入到驅動對話的過程中,使得人機對話能達到更為接近人們日常會話水平的狀態。講者簡介:嚴睿,中國人民大學高瓴人工智能學院,長聘副教授、博士生導師,曾任北京大學王選計算機研究所助理教授,百度公司資深研發。主要研究方向為自然語言處理、文本檢索與挖掘、人工智能+。已在國內外多個重要學術會議及期刊上(包括 ACL、EMNLP、AAAI、IJCAI、NeurIPS、ICLR、SIGIR、KDD、WWW、TOIS等)發表同行評議論文100餘篇,Google Scholar引用6000餘次。獲得國家優秀青年科學基金資助,入選中國人民大學傑出學者、智源人工智能研究院青年科學家、微軟鑄星計劃學者。多次擔任國內外重要學術會議(包括ACL、EMNLP、AAAI、IJCAI、SIGIR、KDD等)的領域主席及資深程序委員會委員,多次受邀在國內外重要學術會議上(包括AAAI、IJCAI、EMNLP、WWW、SIGIR)宣講Tutorial報告。 楊植麟循環智能,智源青年科學家報告題目:NLP From Scratch Without Large-ScalePretraining報告摘要:Pretrained language models have becomethe standard approach for many NLP tasks due to strong performance, but theyare very expensive to train. We propose a simple and efficient learning framework,TLM, that does not rely on large-scale pretraining. Given some labeled taskdata and a large general corpus, TLM uses task data as queries to retrieve atiny subset of the general corpus and jointly optimizes the task objective andthe language modeling objective from scratch. On eight classification datasetsin four domains, TLM achieves results better than or similar to pretrainedlanguage models (e.g., RoBERTa-Large) while reducing the training FLOPs by twoorders of magnitude. With high accuracy and efficiency, we hope TLM willcontribute to democratizing NLP and expediting its development.講者簡介:楊植麟博士是智源青年科學家,循環智能(Recurrent AI)聯合創始人,清華大學交叉信息院助理教授;其聯合創辦的Recurrent AI累計融資近4億元,連續三年營收增長超200%,日均處理對話一億條;其研究成果累計Google Scholar引用10,000餘次;作為第一作者發表Transformer-XL和XLNet,對NLP領域產生重大影響,分別是ACL 2019和NeurIPS 2019最高引論文之一;主導開發的盤古NLP大模型獲2021年世界人工智能大會「卓越人工智能引領者之星獎」;曾入選2021年福布斯亞洲30under 30;曾效力於Google Brain和FacebookAI,博士畢業於美國卡內基梅隆大學,本科畢業於清華大學。 李紀為香儂科技,智源青年科學家報告題目:從閉卷考試到開卷考試——基於corpus-level信息的NLP模型報告摘要:傳統NLP模型可以類比於閉卷考試:在訓練數據上進行學習,推理時不允許參考訓練數據。在本報告中,我們提出將閉卷考試模式下的NLP模型轉變成開卷考試,使得推理過程中允許參考訓練數據。這樣模型更容易處理長尾情況, 同時依賴更小的訓練數據。該模型在WikiText-103語言模型數據集上取得的效果,大幅度超過當前最好模型。講者簡介:李紀為,香儂科技創始人,浙江大學研究員、博士生導師。博士畢業於斯坦福大學計算機學院,研究方向為自然語言處理、深度學習、生物信息學。曾入選2020年《麻省理工科技評論》「全球35歲以下科技創新35人」,為該年度全世界唯一入選大陸華人,2019年「數字中國建設人工智能領軍人物」,2019年《財富》「40歲以下40人」,"中國海歸科技創業100人"等榮譽。