隨着 AI 技術的應用深度與廣度不斷延伸,AI 技術為實際業務場景所帶來的價值已經成為共識,然而,如何才能以更低的成本引入 AI 技術,如何能夠以更加輕量化的方式使用 AI 技術,成為值得思考的問題。
為此,InfoQ 記者有幸在 2022 QCon 全球軟件開發大會上海站的現場,採訪了網易智企算法專家李雨珂。目前,他負責數字內容風控領域的人工智能算法研究,並在 QCon 發表了《AI 服務效率升級,在智能數字內容風控中實踐 AI 生產增效》的主題演講,關於如何助力人工智能生產增效,他有着特別的思考。
以下是視頻採訪的全部內容,為方便讀者查看,視頻下方也附上了文字內容。
李雨珂:我目前在網易智企旗下的網易易盾,最近一段時間主要在做基於 AI 的數字內容風控相關的技術,我也是網易智企技術委員會下面 AI 分委會的負責人。
李雨珂:技術崗位會被分成很多類型,如果按照水平的方式去做管理有一個好處,就是不同的技術崗位能夠得到比較好的發展,在整體的發展方向上可以有一致性。實際上,這對於商業的部門來講,不一定是最好的方式。就好像我們去找客服,如果有一個專屬的客服,需求響應速度是非常快的,而且你的體驗也會非常好。但是如果你的客服需要通過排隊去等待,這個體驗就會比較差。所以我們真實的組織架構,是把不同的技術崗位拆解到不同的業務當中去,也就能夠有更強的戰鬥力,或者讓這些團隊的技術人員對於相關的業務能夠更加的熟悉,或者說更懂得商業。因此基於現在的組織形式,我們會去讓各個業務團隊的研發代表站出來組成一個技術委員會,相當於是從一個水平的角度去做支撐。
從我個人的角度理解,技術委員會主要起到以下幾個作用:
第一個方面,能夠做一些技術上的復用,至少不要重複去造輪子。這種復用包括兩個方面,其一,有一些能力我們可以直接通過 API 的形式去使用;其二,也可以去參考別人技術上的解決方案,看看他們是怎麼去做的,在我們自己的真實問題中可以做借鑑;第二個方面,我們整個事業部層面會有一些水平的任務需要做支撐,技術委員會比較適合去做整體的推動和關注。舉個例子,賬號是比較適合從整個大部門的角度去做關注的,還有一些基礎數據的問題,也更加適合從大的部門去做整理;第三個方面,由技術的負責人一起去想一些技術分享的主題會更加合適,讓不同團隊之間相互知道大家在做什麼事情。在這個過程中也可以相互學習、相互借鑑,將其用在自己的業務領域裡;最後,因為有了技術委員會,它會對不同業務的發展情況以及技術的使用情況有全局的概覽,也更方便我們去做整體技術發展方向的討論和制定。
李雨珂:首先,我會講一些共性的方向,第一部分的共同點,它真正地解決了業務場景中的實際問題,並不是為了應用這個 AI 技術而去用它。舉個例子,像在內容風控場景中,它是有複雜場景下的一些困難目標識別問題;在自然對話場景下,它會有複雜的客戶需求需要解決;第二部分的共同點,在應用 AI 的過程中,我們都非常關注 AI 的效率,即引入了新的技術,但是不能讓這個技術帶來更多的開銷,希望能夠輕量級地去應用 AI 技術,所以在這些解決方案中都有相關的體現。
展開來講,在內容風控場景下,我們會在算法層面做一些調優,去幫助複雜場景的識別效果進行提升;在音視頻場景,我們會有降噪、場景分析以及超分辨率等等,以 AI 為主導的技術去幫助我們提升音視頻方向的體驗;在自然對話場景,我們也會通過特徵檢索方式的優化,用一些對話的框架以及沉澱的行業知識,幫助我們去解決複雜的客戶需求。
李雨珂:第一方面是數據上的支撐,我們前期聚集到了某一個行業比較多的客戶。在這樣的前提下,我們做了相關的數據分析,針對於不同的客戶,他們有怎樣的屬性、關鍵問題等等。得到的結果是,有一些可能跟我們的理解比較一致,有一些可能超出我們的理解,無論是怎樣的發現都對我們理解這個行業是有幫助的。
第二個方面是水平地建立技術上的能力,比如針對未成年人的技術、特徵檢索技術等等,基於這些能力,針對不同行業的解決方案就會更加靈活一些。這裡可以打個比方,當足球教練排兵布陣時,如果有更多類型的隊員進行選擇,排兵布陣就會更加容易。
第三個方面是在對接客戶時,我們會形成一個小團隊,其中包括技術同學、客戶運營同學、策略同學等等。這些同學組織在一起會貼近客戶,服務於客戶的一些真實問題。在這個過程中,我們各個崗位的同學會更了解客戶,進而更了解這個行業。
最後一點,我們觀察到部門的管理者其實是有在關注一些新興的行業,給我們增加了一些新興行業的理解和洞察,幫助我們去找一些新的應用。
李雨珂:這個問題不同崗位的同學可能有不同的答案,我可以講一下我自己的理解。首先站在我們自身,我們就是一直長期堅持去做這麼一件事情,所以我們的技術同學對於行業有非常深入的理解。因此在解決問題的時候,也會更加得心應手一些。
其次可以站在客戶的視角去看,客戶接入一般會經歷 POC 的過程,這個過程固然很重要,但是客戶正式接入了以後,實際上才是一個真正的起點。我們需要做很多和客戶共同成長的事情,幫助客戶去解決真正的問題。在解決問題的過程中,我們也不會刻意迴避一些困難的問題,而是儘自己所能去做到盡善盡美。我們的技術人員也會主動識別現存的問題,幫助客戶去想解決方案,這樣的心態才是核心能力的體現。
李雨珂:數據標準在內容風控場景里確實是一個很重要的問題。因為從人的視角來看,很多東西都是很主觀的,但是對於機器來講,沒有辦法得到一個認知上的結果。所以我們在做前期模型的時候,會更加照顧機器的感受,還會制定一些偏客觀的標準,幫助機器先積累一些比較基礎的能力。當有了這些基礎能力以後,我們會在技術上做進一步的工作,幫助機器去靠近人的認識,這是我們在初始階段做的一些事情。最近的話我們開始在思考讓模型能夠連續輸出一些結果,更加方便在做判斷的時候進行調控。
此外,從我們這麼長時間做這件事情來看,我們不能太低估模型的能力。因為一開始我們會覺得數據標準模型可能沒有辦法 Hold 住,但經過很長時間的實踐,我發現模型對於一些複雜困難的數據標準,它也是有一定的能力。因此這裡有一個比較關鍵的點,不要讓數據標準成為技術生長的限制,希望未來能夠讓我們的技術能力去適應更複雜的數據標準。
李雨珂:我可能會從實用的角度來講這幾個比較新的方向。這些話題其實都是比較吸引人的,但是怎樣把它應用到實際的商業場景中,是一個值得討論的問題。
多模態確實能夠幫助我們去提升效果,但是實際應用起來,它的成本開銷也會逐步的上升。這就相當於我們要多付出 50% 的工作量去多解決 0.1% 的問題。所以在接下來的工作中,我們從實用性的角度出發,更多考慮在怎樣的時機去引入多模態的技術;無監督和超大規模也在近一段時間非常的火爆,從我們的角度來看,它要在線上直接應用可能還有一段距離,我們使用可能會圍繞以下幾個方面:第一個,幫助我們去生成更多的數據,或者幫助我們去找尋更多合適的數據用於下游的訓練;第二個,基於預訓練模型,怎麼應用才能幫助我們得到更好的下游效果;第三個,思考怎樣利用它去做特徵檢索工作。
關於工程自動化,這固然是一個很好的工具,但我始終相信一個好的工具需要有好的人來使用才能發揮最大的作用。工程自動化幫助我們在做成熟業務的時候去提升效率,但是它同時也限制了做這些業務的靈活性。所以在這個過程中,可能需要考慮效率和靈活性之間的平衡,以及怎樣培養更適合的人去使用這個平台,發揮出它最大的作用。
李雨珂:一年多以前,我個人更多會關注怎樣用前沿的技術,來幫助我們的業務場景做效果提升,但近期以及未來的工作重點,會轉向怎樣去提升 AI 在使用過程中的效率。具體來講,在數據層面,我可能會更加關注數據科學這個方向,看看如何能夠在數據層面做更高效的事情,希望未來能夠更少使用人工的數據標註;在算法層面,過去很長一段時間大家都在講大力出奇蹟,我個人希望在未來,我們可以多看看怎樣精簡一個訓練,去獲得更高效的結果;在服務層面的工作其實會更加細緻、全面,這可能也是我自己更看重的一個方向,怎樣在服務層面去做效率上的提升,能夠支持更多類型的 AI 服務。
12 月 5 日 20:00-21:00,來自網易智企遊戲行業部總經理 網易雲商 CTO 尹競成即將做客《極客有約》欄目,如果你對技術管理、研發效能、技術人成長等話題感興趣,抓緊預約直播,下周一晚八點,一起來 InfoQ 直播間聊聊天!