「你好,我是 ChatGPT,我可以回答各種問題。」2022 年末科技領域最出圈的,無疑是 openAI 公司推出的聊天機器人 ChatGPT:寫詩、debug、分析數據……任何棘手難題在它閃爍的光標之間,似乎都能魔法般得到滴水不漏的解答。聊天、作畫、生成視頻,AI 正在以超乎我們想象的速度奔向「智能」。但 AI 不是魔法,它們的知識從哪來?經過了怎樣的訓練才變得如此智能?它們也會「學壞」嗎?這幾個問題或許可以成為我們的錘子,幫助敲開「人工智能」這個黑箱。
AI 的「知識」從哪來?
當 AI 吐出流暢的回答、生成光怪陸離的畫作以後,我們會駐足、驚嘆、感慨科技的進步,但卻容易忽略,AI 的進化可能也有自己的功勞,因為它的知識來自我們每個人的日常生活。想要獲得一個人工智能模型,就像訓練一個起初什麼都不懂的孩子,需要餵養給它大量的學習資料。這些海量的學習資料就是 AI 知識的最初來源——訓練數據集。我們選取了近幾年來在文本、圖像和視頻領域取得了重大突破的幾個 AI 模型,去看看它們的「學習資料」分別都有哪些。這些模型各有其代表性功能:ChatGPT 和 Gopher 代表的文本 AI 模型可以進行自然語言生成;Stable Diffusion 和 DALL-E2 代表的圖像 AI 模型可以繪圖;視頻 AI 模型 VideoMAE 可以識別視頻中的動作種類、分割視頻元素等,X-CLIP 模型可以完成視頻的文本內容檢索。
可以看出,這些 AI 模型的「學習資料」主要來自各類用戶生成內容(UGC)平台,包括公開網頁、博客、維基百科和 YouTube 等。你在社交平台上發布的每一條帖子、一段視頻,都可能被爬取下來,並被編入 AI 的「學習教材」。不過相比人類課本,AI 的「教材」顯然要厚得多。為了學會與你對話,ChatGPT 需要看 4990 億個 token 的文本(token 相當於語言的最小語義單位,比如英文的 token 為一個單詞,中文的 token 為一個詞語),打印下來相當於 648.5 萬本《哈利·波特與魔法石》壘到一起。相似的,繪畫、視頻內容識別模型的訓練數據集大小也都是以億萬為單位,「博觀約取」在 AI 的學習中被發揮到了極致。具體來看,ChatGPT 的訓練數據集主要部分是一個名為 Common Crawl 的數據集,該數據集從 2018 年開始搜集各處數據,不僅有博客、網站、維基百科,還有各國網絡社區、大學官網、政府網站等。第二大來源 WebText2 數據庫涵蓋了更豐富的網頁文本,包括谷歌、電子圖書館、新聞網站、代碼網站等等。想象一下,如果你閱讀並記憶了谷歌搜索引擎的全部內容,再加上各類書籍、新聞,從天文地理到人情世故,當然也會成為「萬事通」。
圖像 AI 模型的知識來自各大圖片網站。根據 Andy 等人對 Stable Diffusion 的 23 億圖片訓練數據集中 1200 多萬張圖片的抽樣統計,其中 8.5%的圖片來自大型圖片社交網站 Pinterest。還有 6.8%來自 WordPress——全球近三成左右網站的搭建系統,除此之外還包括各類購物平台、博客等。
從社交平台、購物平台到各類網站,圖片數據集的獲取原則和文本一樣,都是爭取做到「無所不包」。讓 AI 模型見多識廣,後續才有可能訓練得什麼都能畫出來。從輸入到輸出,
一方面,AI 映射出人類社會既有的權力關係。研究者們曾嘗試着從 AI 的輸出結果中反推其決策過程,發現了它們在「客觀中立」的科技神話之外、沉默溫馴的指令運行之中,隱藏了基於性別、種族、年齡等因素的偏見與交叉性歧視:「在招聘 AI 的眼中,一個叫約翰的人比一個叫瑪麗的人可以更好地成為一名程序員,或者公司的首席執行官。」「銀行 AI 認為,非裔和拉丁裔人比白人更難以按時還清貸款,因此會提供更少的資金支持。」「人臉識別 AI 對黑人女性面孔的識別精準度,遠遠低於對白人男性的識別,甚至會將前者打上『黑猩猩』的標籤。」那麼,AI是怎麼「學壞」的呢?