點擊下方卡片,關注「新機器視覺」公眾號
重磅乾貨,第一時間送達

本文最初發布於 IEEE Spectrum。
吳恩達在人工智能領域可謂聲名顯赫。2000 年底,他與斯坦福大學的學生一起開創了使用圖形處理單元(GPU)訓練深度學習模型的先河,並在 2011 年共同創立了谷歌大腦,然後在百度擔任了三年的首席科學家,幫助這家科技巨頭創立了人工智能小組。因此,很多人都相信他所說的,人工智能將迎來下一個重大轉變。本文是他某次接受 IEEE Spectrum 獨家採訪的內容整理。
目前,他的主要精力都放在其公司 Landing AI 上。該公司構建了一個名為 LandingLens 的平台,幫助製造商利用計算機視覺改善視覺檢測。他還成為了他所謂的以數據為中心的人工智能運動的布道者,他說這可以為人工智能領域的大問題提供「小數據」解決方案,涉及模型效率、準確性和偏見。
本文主要內容包括:
真正的大模型將走向何方;
他未聽取的職業建議;
定義以數據為中心的人工智能運動;
合成數據;
為什麼 Landing AI 要求客戶做這項工作。
IEEE Spectrum:在過去十年左右的時間裡,深度學習的巨大進步是以越來越大的模型處理越來越多的數據為基礎。有人認為,這種發展模式是不可持續的。您是否同意這種說法,深度學習不能再以這種方式繼續發展下去?
吳恩達:這個問題很大。我們已經看過了 NLP(自然語言處理)中的基礎模型。我對 NLP 模型變得越來越大感到興奮,同時也對在計算機視覺領域構建基礎模型的潛力感到興奮。我認為,視頻中仍有很多訊息可以利用:受限於計算帶寬和視頻處理成本,我們還無法為視頻構建出不再依賴文本分詞的基礎模型。因此我認為,這個擴展深度學習算法的引擎,雖然已經運行了大約 15 年,但仍然有活力。話雖如此,那也只適用於某些問題,還有其他一系列問題需要小數據解決方案。
IEEE Spectrum:當您說您希望有一個計算機視覺的基礎模型時,您指的是什麼?
吳恩達:這是由 Percy Liang 和我在斯坦福的一些朋友們創造的一個術語,指的是非常大的模型,在非常大的數據集上訓練,可以針對特定的應用進行調優。例如,GPT-3 就是一個基礎模型 [用於 NLP] 的例子。基礎模型作為開發機器學習應用的一個新範式,有很大的應用前景,但同時也面臨着挑戰,即如何確保它們合理、公平、沒有偏見,特別是如果我們中的許多人將以它們為基礎進行構建。
IEEE Spectrum:在什麼情況下才會有人針對視頻構建一個基礎模型?
吳恩達:我認為有一個可擴展性問題。處理視頻中的大量圖片所需的計算能力非常大,我想這就是為什麼基礎模型會首先出現在 NLP 中。許多研究人員正在研究這個問題,我認為我們已經看到了在計算機視覺領域開發這種模型的早期跡象。我相信,如果有一家半導體製造商給我們提供 10 倍的處理能力,那麼我們就很容易找到 10 倍的視頻來構建這樣的視覺模型。
話雖如此,在過去十年裡,經常出現的情況是,深度學習發生在面向消費者的公司。這些公司擁有龐大的用戶群,有時是數十億用戶,他們也因此擁有非常龐大的數據集。雖然這種機器學習範式為消費類軟件帶來了巨大的經濟價值,但我發現,適用於這種規模的方法對其他行業並不適用。
IEEE Spectrum:聽您這麼說很有意思,因為您早期就是在一家面向消費者而且有數百萬用戶的公司工作。
吳恩達:十多年前,當我提議啟動谷歌大腦項目,利用谷歌的計算基礎設施來構建非常大的神經網絡時,是有爭議的。一個非常資深的人把我拉到一邊,警告我說,啟動谷歌大腦對我的職業生涯不利。我想,他是覺得行動不能只停留在擴大規模上,而應該把重點放在架構創新上。
在許多行業中,巨型數據集根本不存在,所以我認為,關注點必須從大數據轉向好數據。有 50 個精心設計的樣本就足以向神經網絡解釋你想讓它學習什麼。
我記得,在我和我的學生發表第一篇 NeurIPS 研討會論文,提倡使用 CUDA(一種在 GPU 上進行處理的平台)進行深度學習時,一位與眾不同的 AI 資深人士對我說:「CUDA 編程真的很複雜。作為一種編程範式,這麼做工作似乎太多。」我設法說服了他;但另一個人我卻沒能說服。
IEEE Spectrum:我希望他們現在都信服了。
吳恩達:我認為是這樣。
在過去一年裡,當我與人們談論以數據為中心的人工智能運動時,我一直在回想 10 或 15 年前在與人們談論深度學習和可擴展性時的情景。在這一年裡,我一直聽到同樣的雜音:「這沒有什麼新東西」和「這似乎是一個錯誤的方向」。
IEEE Spectrum:您是怎麼定義以數據為中心的 AI 的?為什麼您將其視為一場運動?
吳恩達:以數據為中心的 AI 是一門系統地設計數據以促成人工智能系統構建的學科。人工智能系統必須在代碼中實現一些算法,比如說神經網絡,然後在數據集上訓練它。過去十年的主流範式是下載數據集,並專注於改進代碼。得益於這種範式,在過去十年中,深度學習網絡有了顯著的改善,以至於對於很多應用程序來說,代碼——神經網絡架構——基本上是一個已解決的問題。因此,對於許多實際應用來說,將神經網絡架構固定下來,轉而尋找改善數據的方法,會更有成效。
當我開始談論這個問題時,有許多從業者舉手說,「是的,我們已經做了 20 年了」。現在,是時候把一些人一直憑直覺在做的事情,變成一門系統的工程學科了。
與一家公司或一群研究人員相比,以數據為中心的人工智能運動的規模要大得多。我和我的合作者在 NeurIPS 上組織了一個以數據為中心的人工智能研討會,前來參加的作者和演講者的數量讓我感到非常高興。
IEEE Spectrum:您經常談到,有些公司或機構只有少量的數據可供利用。以數據為中心的人工智能如何為他們提供幫助?
吳恩達:你應該聽說過,很多視覺系統的構建使用了數百萬張圖片,我曾經用 3.5 億張圖片構建了一個面部識別系統。為數以億計的圖片構建的架構在只有 50 張圖片時是行不通的。
但事實證明,如果有 50 個非常好的樣本,那麼你就可以構建一些有價值的東西,比如缺陷檢測系統。在許多行業,根本不存在非常大的數據集,所以我認為,關注點必須從大數據轉移到好數據。有 50 個精心設計的樣本就足以向神經網絡解釋你想讓它學習什麼。
IEEE Spectrum:您說用 50 張圖片訓練一個模型的意思是對一個現有的、在非常大的數據集上訓練的模型進行微調,還是說一個全新的模型,只是它被設計成只從小數據集學習?
吳恩達:讓我描述一下 Landing AI 的作用。在幫助製造商實現視覺檢測時,我們經常使用我們自己的 RetinaNet。它是一個預訓練的模型。話雖如此,預訓練只是整個拼圖的一小部分。更大的難題是提供工具,使製造商能夠挑選合適的圖片集 [用於調優],並用同樣的方式標記它們。我們看到,有一個非常實際的問題,橫跨視覺、NLP 和語音,即使是人類標註者也沒法一致地給出適當的標籤。對於大數據應用,常見的反應是:如果數據嘈雜,我們就獲取大量的數據,然後由算法來均化處理。但是,如果你能開發一些工具來標記數據不一致的地方,並給出一個非常有針對性的方法來改善數據的一致性,那麼這將是構建一個高性能的系統更有效的方法。
收集更多的數據往往是有幫助的,但如果你什麼時候都設法收集更多的數據,那可能是一項非常昂貴的活動。
例如,如果你有 1 萬張圖片,其中 30 張屬於一個類別,而這 30 張圖片的標籤不一致,我們所做的其中一件事就是構建工具,幫助你發現不一致的數據子集。那樣,你就可以非常迅速地重新標註這些圖片,提升圖片一致性,進而提升性能。
IEEE Spectrum:這種對高質量數據的關注是否能幫助解決數據集偏見,如果能在訓練前更多地挑選數據?
吳恩達:幫助非常大。已經有許多研究人員指出,數據偏見是導致系統偏見的眾多因素之一。人們在數據設計方面已經付出了許多努力。在 NeurIPS 研討會上,Olga Russakovsky 就這個問題做了一個非常好的演講。我也非常喜歡 NeurIPS 大會上 Mary Gray 的演講,她提到,以數據為中心的人工智能只是解決方案的一部分,但不是全部解決方案。像 Datasheets for Datasets 這樣的新工具似乎也是拼圖的重要組成部分。
以數據為中心的人工智能為我們提供的其中一個強大的工具是設計數據子集的能力。想象一下,訓練一個機器學習系統,發現它在大部分數據集上的表現都還可以,但只是對數據的一個子集有偏見。如果你為了提高在那個數據子集上的性能,試圖改變整個神經網絡的架構,這相當困難。但是,如果你能對數據的一個子集進行設計,你就能以更有針對性的方式解決這個問題。
IEEE Spectrum:準確地說,您所說的數據設計是指什麼?
吳恩達:在人工智能領域,數據清理很重要,但數據清理的方式往往需要大量的手動工作。在計算機視覺中,有人可能通過 Jupyter 筆記本將圖片可視化,也許會發現問題,也許會修復它。
但對於那些讓我們可以擁有一個非常大的數據集的工具,那些可以快速有效地定位存在標籤噪聲的數據子集的工具,我感到非常興奮。或者是快速將你的注意力吸引到 100 個類中的某一類,從中收集更多的數據會讓你受益。收集更多的數據往往是有幫助的,但是如果你什麼時候都設法收集更多的數據,那可能是一項非常昂貴的活動。
例如,我曾經指出,當背景中有汽車噪音時,語音識別系統的表現很差。了解了這一點,我就可以在有汽車噪音時收集更多的數據,而不是什麼時候都設法收集更多的數據,那樣成本又高又耗時。
IEEE Spectrum:使用合成數據怎麼樣,通常這是一個好的解決方案嗎?
吳恩達:我認為,合成數據是以數據為中心的人工智能工具箱中的一個重要工具。在 NeurIPS 研討會上,Anima Anandkumar 做了一個關於合成數據的精彩演講。我認為,合成數據的重要用途不僅僅是作為一個預處理步驟來增加學習算法的數據集。我希望看到更多的工具,讓開發者可以把合成數據生成作為機器學習迭代開發閉環的一部分。
IEEE Spectrum:您是說合成數據可以讓我們在更多的數據集上試驗模型嗎?
吳恩達:不是這樣。舉個例子。比方說,你試圖檢測智能手機外殼的缺陷。智能手機上有許多不同類型的缺陷。那可能是劃痕、凹痕、坑痕、材料變色或其他類型的瑕疵。如果你訓練了模型,然後通過誤差分析發現它總體上表現很好,但在坑痕上表現很差,那麼合成數據生成讓你可以更有針對性地解決這個問題。你可以只針對坑痕類別生成更多的數據。
在消費類軟件互聯網中,我們可以訓練少數幾種機器學習模型來服務 10 億用戶。但在製造業,你可能要為 1 萬個製造商構建 1 萬個定製化的人工智能模型。
合成數據生成是一個非常強大的工具,但也有許多簡單一些的工具,我經常會先試一下。比如說數據增強,改善標籤一致性,或者只是要求工廠收集更多的數據。
IEEE Spectrum:為了使這些問題更加具體化,您能通過一個例子來更具體地說明下這些問題嗎?當一家公司找到 Landing AI 並說它在視覺檢測方面存在問題時,您如何讓他們參與進來並努力實現部署?
吳恩達:當客戶找到我們時,我們通常會就他們在檢測方面遇到的問題進行交談,並查看一些圖片,以驗證該問題是否可以通過計算機視覺來解決。假如可以,我們會要求他們將數據上傳到 LandingLens 平台。我們經常基於以數據為中心的人工智能方法論向他們提供建議,並幫助他們對數據進行標註。
Landing AI 的其中一個重要目標是讓製造企業可以自己完成機器學習工作。我們的很多工作都是為了確保軟件快速且易於使用。我們通過機器學習開發的迭代過程為客戶提供建議,比如如何在平台上訓練模型,何時以及如何改進數據的標註,從而提高模型的性能。我們會一直提供培訓和軟件支持,直到他們將訓練好的模型部署到工廠的邊緣設備上。
IEEE Spectrum:你們如何處理不斷變化的需求?如果產品發生變化或工廠的照明條件發生變化,模型能跟得上嗎?
吳恩達:這和製造商有關係。在許多情況下都會有數據漂移。但也有一些製造商,一條生產線運行了 20 年,幾乎沒有什麼變化,所以他們不覺得未來 5 年內會有什麼變化。穩定的環境使事情變得相對簡單。對於其他製造商,我們提供工具,在發生重大數據漂移問題時進行標記。
我發現,賦予製造業客戶糾正數據、重新訓練和更新模型的能力真的很重要。因為如果有什麼變化,而且現在是美國時間凌晨 3 點,我希望他們能夠立即調整他們的學習算法,以保證運營。
在消費類軟件互聯網中,我們可以訓練少數幾個機器學習模型來服務 10 億用戶。但在製造業,你可能要為 1 萬個製造商構建 1 萬個定製化的人工智能模型。這裡的挑戰是,如果沒有 Landing AI ,你如何做到這一點,是雇用 10000 名機器學習專家嗎?
IEEE Spectrum:所以您是說,為了使其可擴展,您必須賦能客戶來做大量的訓練及其他工作。
吳恩達:是的,完全正確!這是涉及全行業的人工智能問題,不僅僅是在製造業。看看衛生保健領域。每家醫院的電子健康記錄格式都略微不同。每家醫院該如何訓練自己定製化的人工智能模型?指望每家醫院的 IT 人員發明新的神經網絡架構是不現實的。
擺脫這種困境的唯一方法是構建工具賦能客戶,為他們提供工具來設計數據和表示領域知識,使他們能夠構建自己的模型。這就是 Landing AI 希望在計算機視覺領域達成的目標,人工智能領域需要其他團隊在其他領域完成類似的目標。
IEEE Spectrum:關於您所做的工作或以數據為中心的人工智能運動,您認為還有什麼需要人們了解的嗎?
吳恩達:在過去十年中,人工智能最大的轉變是向深度學習轉變。我認為,在這個十年裡,最大的轉變很有可能是向以數據為中心的人工智能轉變。隨着現如今神經網絡架構的成熟,我認為,對於很多實際的應用來說,瓶頸將是我們能否有效地獲得我們所需的數據,開發出效果良好的系統。
以數據為中心的人工智能運動在整個社區有着巨大的活力和動力。我希望有更多的研究人員和開發人員能夠加入進來,為之努力。
原文鏈接:
https://spectrum.ieee.org/andrew-ng-data-centric-ai?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJhdWQiOiJhY2Nlc3NfcmVzb3VyY2UiLCJleHAiOjE2NTE3MzMzODUsImZpbGVHVUlEIjoiS3JrRVZMek5SS0NucGpBSiIsImlhdCI6MTY1MTczMzA4NSwidXNlcklkIjoyNTY1MTE5Nn0.TTm2H0sQUhoOuSo6daWsuXAluK1g7jQ_FODci0Pjqok
本文僅做學術分享,如有侵權,請聯繫刪文。
