close

刷新了中國自然語言處理與知識圖譜領域的最高融資記錄。

文|鄭燦城
編輯|高雅

封面來源|IC photo


36氪獲悉,文本智能處理與辦公智能應用供應商「達觀數據」已於近日完成5.8億元C輪融資,本輪投資方包括中信證券、招商證券、廣發證券和中信建投四家證券集團,以及深創投、襄禾資本、弘卓資本、尚珹資本、眾麟資本、聯想之星、陽光保險集團等。融資資金將主要用於研發NLP、RPA、OCR等核心產品和開拓下游產業應用。
「達觀數據」成立於2015年,是36氪長期跟蹤報道的公司,其核心產品是開發了首個支持各類國產操作系統的跨平台智能辦公機器人,可以簡單理解為以文本智能化處理技術為突破口、在自主研發國內首套從事複雜文本智能化處理的IDPS技術平台的底層架構下,實現用計算機代替白領處理辦公文字的目的。辦公文字處理包括讀文字、理解文字和寫文字三個過程,「達觀數據」提供的服務可以完成上述全部工作。
具有「達觀」色彩的是將NLP和RPA相結合。陳運文向36氪解釋,日常工作可以大致分為三類,分別是相對簡單的機械重複工作,如財務報表核對;還有帶有一定業務邏輯和業務知識的工作,如招股書審核等,相對更複雜;第三類是難度更大的文字寫作工作,如公文寫作等。
簡單的流程性工作可由RPA模仿,而更複雜的工作就需要NLP技術在其中發揮作用。如果把RPA比作是人的手,那麼NLP就像是智能分析的大腦,手和大腦相互配合,才能使智能辦公機器人在多場景下完成專業、複雜的工作事務。

「達觀數據」供圖

和人相比,NLP和RPA相結合的數字員工具有三大優勢。一是更有高準確率和穩定性,也就是數字員工背後的系統運作,能夠高水平輸出工作成果,這填補了人受到技能掌握、工作經驗和工作狀態等限制,難以持續穩定輸出高標準工作產出的空白。
二是數字員工可以在不斷訓練的情況下,強化自身工作能力。數字員工在不斷加強智能化系統的訓練,在訓練集(樣本數據)越來越多時,數字員工也能進一步提升自身的工作能力。
三是數字員工不會遺忘信息,可永久保留工作能力。如果缺少重複鞏固,一名嫻熟的業務員可能在一定時間後變得生疏,而計算機一旦熟悉數據庫,就永遠不會忘記。
這將是對工作方式的變革,人和數字人結合的方式,或許是未來普遍的工作狀態。那麼,未來的工作場景中,人將主要負責更高級的決策性工作,而細枝末節的工作交給數字員工完成。
例如,當人們需要起草一份報告的時候,人只需要寫一份梗概,數字員工就能自動生成報告;再如,人們審核文檔的時候只需要關注幾個重要的部分,大量的細節交由數字化員工完成。
可以在「達觀」的身上看到多個「唯一」,比如業內唯一具有文本標註訓練平台的通用軟件產品;唯一自主開發OCR(光學字符識別)模塊;唯一一款脫離微軟.NET框架、擁有完全獨立知識產權的RPA產品,可跨平台解決複雜問題等等,團隊的技術底色讓「達觀」得以成為唯一的「達觀」。
首先,「達觀數據」的員工來自國內專門從事文檔資料智能化處理的技術團隊,如百度、盛大文學、騰訊等,一直從事NLP技術研發工作;另一方面,「達觀數據」通過專家標記,積累了海量高質量訓練樣本,這些數據是算法學習的絕佳材料。
其次,就技術層面的突破來看,「達觀數據」在過去幾年和包括北大、復旦在內的國內多所頂尖高效合作,建立了聯合實驗室和課題攻關組,也技術性理論研究上做出進展。這與學術界在自然語言處理方面的前進幾乎同步調,中文預訓練模型、transformer模型的提出都將深度神經網絡技術推向了一個新的台階。
此外,「達觀數據」自研的OCR技術相當於人的眼睛,能夠將文字資料轉化成計算機能夠讀懂的數據。對於一些以圖片的形式存在的數據,如掃描文檔、發票、卡證和驗證碼等,OCR和NLP的結合能夠對複雜表格進行結構識別和理解。

「達觀數據」供圖

更重要的是,場景落地往往是技術走向商業化的關鍵一步,這一點對於人工智能等新興技術來說尤為凸顯。
在面對每個新的行業時,人工智能都需要學習該行業的專業知識,正如術業有專攻,各行各業都有自己的特點。因此,為了讓算法適應不同行業,強化對不同行業的理解,「達觀數據」創建了行業知識圖譜(Knowledge Graph)。
通過對知識圖譜的不斷完善,解決了深度學習可解釋性差的問題,能夠幫助算法工程師基於行業理解調整優化模型參數。「這樣才能讀書破萬卷,下筆如有神。」「達觀數據」創始人陳運文向36氪表示。
目前,「達觀數據」業務已經覆蓋金融、製造、傳媒、物流、能源、零售、政府、醫藥等多個行業。正如活字印刷術為各行各業帶來的效率革命,智能文本處理技術也將改變白領們的工作方式。陳運文向36氪表示,10年之內,50%的日常文檔處理工作將由計算機完成。
同時,廣泛應用場景也為智能辦公機器人創造着數千億規模的市場空間,按照公開資料數據,中國3700萬白領、600萬公務員等群體均對與數字人結合的新工作方式存在需求。
未來,「達觀數據」希望能夠繼續鞏固其底層技術能力,攻克技術難關,訓練出更加「聰明」的智能文本處理系統;同時,還將持續擴大在已有行業的市場占有率,並將其已驗證模式複製到教育、醫療和製造業等新領域。
團隊方面,創始人&CEO陳運文博士畢業於復旦大學計算機系,曾任職百度、盛大、騰訊首席數據官,為知名學會ACM、IEEE、CCF高級會員;首席技術執行官紀達麒曾擔任盛大文學技術總監,搜狗廣告系統高級研發工程師,百度工程師等職務;技術副總裁兼聯合創始人桂洪冠,曾在騰訊文學、阿里巴巴、新浪微博等知名企業擔任數據挖掘高級技術管理工作;
聯合創始人高翔曾任騰訊文學文本挖掘技術負責人,盛大創新院算法專家,擅長自然語言處理、文檔智能處理等產品技術研發,擁有多項國家發明專利和科技成果轉化獎項;聯合創始人紀傳俊曾任原盛大創新院AI系統主管,盛大文學數據中心主管。

獨家、深度、前瞻,為1%的人捕捉商業先機

36氪旗下官方賬號

真誠推薦你來關注👇


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()