close

「你好,我是 ChatGPT,我可以回答各種問題。」2022 年末科技領域最出圈的,無疑是 openAI 公司推出的聊天機器人 ChatGPT:寫詩、debug、分析數據……任何棘手難題在它閃爍的光標之間,似乎都能魔法般得到滴水不漏的解答。
聊天、作畫、生成視頻,AI 正在以超乎我們想象的速度奔向「智能」。但 AI 不是魔法,它們的知識從哪來?經過了怎樣的訓練才變得如此智能?它們也會「學壞」嗎?這幾個問題或許可以成為我們的錘子,幫助敲開「人工智能」這個黑箱。

AI 的「知識」從哪來?

當 AI 吐出流暢的回答、生成光怪陸離的畫作以後,我們會駐足、驚嘆、感慨科技的進步,但卻容易忽略,AI 的進化可能也有自己的功勞,因為它的知識來自我們每個人的日常生活。
想要獲得一個人工智能模型,就像訓練一個起初什麼都不懂的孩子,需要餵養給它大量的學習資料。這些海量的學習資料就是 AI 知識的最初來源——訓練數據集。
我們選取了近幾年來在文本、圖像和視頻領域取得了重大突破的幾個 AI 模型,去看看它們的「學習資料」分別都有哪些。這些模型各有其代表性功能:ChatGPT 和 Gopher 代表的文本 AI 模型可以進行自然語言生成;Stable Diffusion 和 DALL-E2 代表的圖像 AI 模型可以繪圖;視頻 AI 模型 VideoMAE 可以識別視頻中的動作種類、分割視頻元素等,X-CLIP 模型可以完成視頻的文本內容檢索。

可以看出,這些 AI 模型的「學習資料」主要來自各類用戶生成內容(UGC)平台,包括公開網頁、博客、維基百科和 YouTube 等。你在社交平台上發布的每一條帖子、一段視頻,都可能被爬取下來,並被編入 AI 的「學習教材」。
不過相比人類課本,AI 的「教材」顯然要厚得多。為了學會與你對話,ChatGPT 需要看 4990 億個 token 的文本(token 相當於語言的最小語義單位,比如英文的 token 為一個單詞,中文的 token 為一個詞語),打印下來相當於 648.5 萬本《哈利·波特與魔法石》壘到一起。相似的,繪畫、視頻內容識別模型的訓練數據集大小也都是以億萬為單位,「博觀約取」在 AI 的學習中被發揮到了極致。
具體來看,ChatGPT 的訓練數據集主要部分是一個名為 Common Crawl 的數據集,該數據集從 2018 年開始搜集各處數據,不僅有博客、網站、維基百科,還有各國網絡社區、大學官網、政府網站等。第二大來源 WebText2 數據庫涵蓋了更豐富的網頁文本,包括谷歌、電子圖書館、新聞網站、代碼網站等等。想象一下,如果你閱讀並記憶了谷歌搜索引擎的全部內容,再加上各類書籍、新聞,從天文地理到人情世故,當然也會成為「萬事通」。

圖像 AI 模型的知識來自各大圖片網站。根據 Andy 等人對 Stable Diffusion 的 23 億圖片訓練數據集中 1200 多萬張圖片的抽樣統計,其中 8.5%的圖片來自大型圖片社交網站 Pinterest。還有 6.8%來自 WordPress——全球近三成左右網站的搭建系統,除此之外還包括各類購物平台、博客等。

從社交平台、購物平台到各類網站,圖片數據集的獲取原則和文本一樣,都是爭取做到「無所不包」。讓 AI 模型見多識廣,後續才有可能訓練得什麼都能畫出來。
從輸入到輸出,

算法在其中做了什麼?

拿到人類知識的「原材料」後,AI 要如何學習,才能將這些知識為自己所用?
「訓練」是讓算法變得「智能」的關鍵步驟。這和教小孩學說話、畫畫極為相似,即使買來成千上萬冊圖書,也需要家長一步步教會孩子理解掌握,才能變成孩子自己的知識加以靈活運用。我們以文本生成模型 ChatGPT、圖像生成模型 Stable Diffusion 為例,看看這個「孩子」是如何通過訓練,學會了說話和畫畫的。


教會 ChatGPT 說話,第一步是用「文字接龍」的遊戲讓它有基礎的語感:閱讀大量的網頁文本、書籍,並遮蓋住每句話的後半句,ChatGPT 會隨機猜測後半句的內容,由此慢慢了解人類語言的習慣。但網頁文本數量雖多,質量卻良莠不齊,因此接下來第二步是請來高水平的人類老師,由老師撰寫一些常見問題的答案,將這些問答資料再交給 ChatGPT 進一步學習。學習之後需要一位助手繼續監督 ChatGPT 練習鞏固,於是第三步訓練一個獎懲模型作為「助教」,通過訓練助教模型學習大量的由人工打分的問答,幫助其學會判斷回答的質量。第四步由這個「助教」為ChatGPT的練習回答打分,回答得好獎勵高分,否則懲罰給低分。
在此獎懲機制下,ChatGPT 不斷強化學習,學會了和人類對話的技巧。層層遞進的訓練過程,再加上已經閱讀了數以億計的維基百科、博客、書籍得到的知識儲備,ChatGPT 不僅能進行一些基礎對話,還可能回答出一些刁鑽提問。
學習畫畫則是另一種思路。為了讓模型學會自主創作,第一步要先「毀掉」它原始的學習資料,這種「毀掉」就是一步步給訓練的圖像添加噪聲,讓原本清晰的圖片變得完全無法辨識。而接下來 Stable Diffusion 需要做的,就是嘗試還原這張被「毀掉」的圖片,預測圖片在每一步被添加了哪些噪聲,再將噪聲去除,最終還原出一張清晰的圖片。每次猜測還原之後,它會再看答案對照改進自己的猜測,由此逐漸訓練出即使面對一張充滿噪聲的圖片,也可以畫出清晰作品的能力。但由於原始的圖片大部分信息已經被噪聲掩蓋,Stable Diffusion 的復原並不會是對原始圖片的 1:1 還原複製,而是完成了自己的創作。


對人類而言,我們不僅想要讓算法學會畫畫,還需要它可以聽懂人話,根據我們的指令進行「半命題」作畫。因此 Stable Diffusion 在作畫的過程中還學會了理解文本信息,比如當收到「戴眼鏡的貓」的指令,模型能夠建立「眼鏡」「貓」的文字和眼鏡、貓咪圖像之間的關聯,並將其作為它作畫的參考信息,結合之前訓練掌握的作畫能力,成功畫出人類用戶需要的「戴眼鏡的貓」。

AI也會「學壞」嗎?

AI對知識的獲取和消化一向簡潔、高效,將「偉大」的知識轉化為純粹的數據流,遵循着既定的程序照單全收,由此完成了一場對知識的拆解與「祛魅」。
然而,將其置於更廣闊的社會實踐之中,我們可以發現——在數據之外,知識仍是一種權力。


一方面,AI 映射出人類社會既有的權力關係。
研究者們曾嘗試着從 AI 的輸出結果中反推其決策過程,發現了它們在「客觀中立」的科技神話之外、沉默溫馴的指令運行之中,隱藏了基於性別、種族、年齡等因素的偏見與交叉性歧視:
「在招聘 AI 的眼中,一個叫約翰的人比一個叫瑪麗的人可以更好地成為一名程序員,或者公司的首席執行官。」
「銀行 AI 認為,非裔和拉丁裔人比白人更難以按時還清貸款,因此會提供更少的資金支持。」
「人臉識別 AI 對黑人女性面孔的識別精準度,遠遠低於對白人男性的識別,甚至會將前者打上『黑猩猩』的標籤。」
那麼,AI是怎麼「學壞」的呢?


這多與其使用的數據集和訓練算法有關。當過往不均衡的數據更多地將男性同程序員、CEO、總統等信息聯繫在一起,將女性同家庭主婦、私人助理、護士等信息聯繫在一起,在不引入反偏差或監督學習算法進行人工干預與及時糾正的情況下,AI 很容易將相關性誤判為因果,將過往奉為圭臬,並輸出類似的關聯結果。比如,在生成「總統開會」圖像時,默認為全員男性;或者在程序員簡歷篩選時,對使用女性名字的候選者進行低分評估。
不過,人類的偏見總是暗戳戳地寫在頭腦里,而 AI 的偏見則容易明晃晃地寫在輸出結果上。因此,從某種程度上來說,發現並糾正 AI 的偏見,也是在重新審視並剖析人類社會本身的偏見。
另一方面,AI也正在挑戰人類所設定的「權力」。
最鮮明的體現之一便是 AI 侵權爭議。如今,AI 的知識邊界不斷拓展,已經將觸角伸及了「藝術創作」這一人類曾經擁有絕對統治力的「禁區」,甚至能夠生成與藝術家風格高度相似的可商用圖片,堪稱以假亂真的最終成品也再次向「人類」與「創造」之間不言自明的聯繫提出無聲質疑。
我們很難相信,一套不通人情的計算機系統,竟然能夠同那個「靈魂里有團火」的男人相仿,畫出一整片拼命燃燒的星空。
Stable Diffusion根據「Van Gogh style」指令創作
梵高《星月夜》原作
實際上,人類對於「被取代」的恐懼並不是新鮮事。從工業革命時期的機器生產到如今的人工智能,那些關於技術更迭的反烏托邦想象從未停止。
甚至,從某種程度上來說,正是這種主體性之憂,讓人類始終保持着對自身存在與生命意義的批判與反思;也正是這種批判與反思,促使人類孜孜不倦地進行創造性的知識生產,從而擁有「不被取代」的可能性。
與ChatGPT對談

統籌 / 方潔
數據收集與資料整理 / 林歆瑤 何京蔚 朱欣欣 申屠泥 肖瀟 惠一蘅 黃思琪 張瑞 蔡靜遠余婉遙單子郁
可視化 / 惠一蘅 肖瀟 黃思琪 張瑞
文案 / 蔡靜遠余婉遙單子郁
編輯 / 張鈴媛 何京蔚
特別感謝劉玉琪對本文的技術部分提供的建議與審核
*本文為「湃客·有數」欄目獨家作品,版權所有,任何媒體或平台未經許可,不得轉載。

往期回顧

00後、青訓營與賽場外的足球世界

「Ale ale」還是「Waka waka」?俘獲大眾的世界盃曲目長什麼樣
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()