close

沉浸式地體驗過 Midjourney 和 ChatGPT 兩周後,分享下我的觀察和思考。

1.神奇十一月

Midjourney 的 v4 版本是 11 月 5 日發布的,ChatGPT 是 11 月 30 日發布的,堪稱 AIGC 應用歷史上最神奇的十一月。

其實 Midjourney 的底層技術沒有變過、ChatGPT 依賴的 GPT-3 也發布有些時日了。它們之所以神奇,就是在同一個方面:

在可用性上,已經跨過了門檻。

怎麼定義可用性呢?我也不知道邏輯上怎麼證明,我看到了太多實際的案例。

先說 Midjourney,畫出圖形的驚艷程度想必不少朋友已經感知過了(可以看下這裡面我生成的海報:我們離 AI 做一部電影有多遠?),更重要的是,它能適應千變萬化的風格,並非只是畫個二次元頭像那麼簡單。

例如目前中文播客的主播大都是愛好者,請不起昂貴的設計師,往往都是自己簡單將就。而 Midjourney 就能很好地完成任務。

比如我一個朋友月莞柔的播客根據封面製作的海報是這樣的:

我用插畫風格嘗試了一段時間後,做出來了這樣的一組效果:

除了手指那裡有明顯的破綻、文字部分還是一坨漿糊外,已經是完全可用的了。

其它的風格也都能掌握,我給喜歡的幾檔播客做了一些嘗試,從左上到右下的四格一組分別是 諧星聊天會、黑貓偵探社、跳進兔子洞和公司茶水間。

這樣的效果,就像有朋友說的,已經超過大部分國內素材網站能找到的水平了。

使用場景還有很多,比如朋友們的公眾號頭圖已經在用 Midjourney 生成了。再比如我今年的紅包封面已經在審核中,比去年可好看太多了:

為什麼前面說 v4 是一個質變呢?我們看這樣一張圖會更直觀,這是我畫的同個 prompt(關鍵詞)的四個效果:

我多次實驗,都是如此。在座的任何一位朋友,在 Midjourney 里用 cat --v 1/2/3/4,都是這樣的效果。

這樣的插畫質量,已經完全可用了。在各種商業海報、出版物、內容產品的封面和插圖等等,能夠輕鬆勝任。

2.質變的對話機器人

說完 Midjourney 我們再聊下 ChatGPT。直觀的感受建議讀一遍這篇:跟 AI ChatGPT 聊了 11 個我過去關心的話題。

這是我把過去幾年寫過的文章挑選了一些主題,看看它是怎麼回答的。從回答里我們能得到的深刻洞察並不多,但至少破綻比較少。

可能直觀上跟 Midjourney 比,可用性不是那麼顯著,畢竟不能直接創作很多高質量的內容。很多人認為可用性主要在搜集信息上,比如問一些客觀存在的事實,未來是替代搜索引擎的。

其實不然,ChatGPT 最先替代的恐怕不是 Google,而是大量的小編。

我們先直觀感受下在調教後,朋友們的玩法。

@少楠 的雞湯文:

@SuFafa 的檢討書:

@RogerZhu 的播客提綱:

我用一些指定黑話寫出的講話稿:

以上的來源都是即刻主題「AIGC 探索站」主理人 Szhans 的總結帖子,強烈推薦各位去了解下:

https://m.okjike.com/originalPosts/638c6bb9c3f4e245defdec37

從匯報文檔,到演講稿,到播客引導語,到一些文案的斟酌修正,ChatGPT 都能很好地勝任。而且確保文字有邏輯、標點符號使用正確(這點很多小編都做不到)。

更實用的一個案例是少楠最近在寫書,想要潤色修正的時候,極其好用:

文字編輯工作里,還常見有總結中心思想的需求。我讓 ChatGPT 對我這篇文章(釘釘靠什麼服務大客戶?)做了總結,效果如下:

「文章討論了DingTalk,一個由中國科技巨頭阿里巴巴開發的企業通信和協作平台。作者指出,過去,DingTalk被批評為主要集中在 IM 和考勤跟蹤功能上,而不是提供更先進的企業服務。然而,作者指出,DingTalk 也引入了文件管理和項目管理等功能來解決這個問題。作者還提出了對 DingTalk 在面向大型企業時可能面臨的挑戰的擔憂,如定製化可能成為外包,以及需要平衡定製化與互操作性和可擴展性。作者建議,DingTalk 有可能通過專注於與阿里巴巴其他產品和服務的整合,以及利用其在人工智能和機器學習方面的專長來提供先進的企業解決方案,從而使自己與競爭對手區分開來。文章討論了 DingTalk,一個由中國科技巨頭阿里巴巴開發的企業通信和協作平台。作者指出,過去,DingTalk 被批評為主要集中在IM和考勤跟蹤功能上,而不是提供更先進的企業服務。然而,作者指出,DingTalk 也引入了文件管理和項目管理等功能來解決這個問題。作者還提出了對 DingTalk 在面向大型企業時可能面臨的挑戰的擔憂,如定製化可能成為外包,以及需要平衡定製化與互操作性和可擴展性。作者建議,DingTalk 有可能通過專注於與阿里巴巴其他產品和服務的整合,以及利用其在人工智能和機器學習方面的專長來提供先進的企業解決方案,從而使自己與競爭對手區分開來。」

細看之下,的確還是有一些細節問題,不過這個大致的表述,可以以假亂真。另外這是對中文的總結,英文總結的效果要好得多。ChatGPT 也在快速迭代學習這些能力。

在 OpenAI 的官網上,還有如下的場景描述(部分):

整理目錄;
整理文章的關鍵詞;
從產品描述得到廣告語;
給產品起名;
根據主題列出推薦書單;
整理總結中心思想;
總結論文摘要;
撰寫採訪提綱;
自動代碼注釋;
bug fixer;
把 JavaScript 改寫為 Python;
......

直觀感受後,想必也能一下 get 到 ChatGPT 背後的場景價值。它並不是我們手裡都有的 Siri,也不是只能調戲很容易出戲的小冰。它是一個依靠「自然語言」來完成各種文字、代碼相關工作的超級工具。

3. 大力出奇蹟
話分兩頭說,我們先說說它們為什麼這麼「厲害」。
十一月質變的出現,背後其實還是量變的結果。正如前面說的,其實 Midjourney 的底層技術沒有變過、ChatGPT 依賴的 GPT-3 也發布有些時日了。
目前的技術邏輯,當然有精妙算法引入的緣故,但其根本原理,跟半個世紀前並無二致,依然還是統計概率計算(這個問題在這裡聊過了:從機器學習聊到 AIGC)。
對於大數據算法來說,核心要素就兩個點:數據量和計算性能。隨着新算法的出現,以及硬件配置的極速發展,後者已經不是瓶頸。
在 Twitter 上 A16Z 的 Jack Sosolow 對 AI 的觀察里,也引用了一篇文章《Training Compute-Optimal Large Language Models》,裡面明確提到了一個當下的現狀:
谷歌比較了兩個 LLMs(大語言模型),其中一個參數少 4 倍,但數據多 4 倍。擁有更多數據的那一個最終明顯更準確。因此,對於 LLMs 來說,計算不再是最大的槓桿,而數據才是。
ChatGPT 是建立在 GTP-3 的版本基礎上的。GTP-1 的參數量是 110m(1.1 億),GTP-2 的參數量是 1.5b(15 億),GTP-3 的參數量直接飆升到了175b(1750 億)。
跟 ChatGPT 作為兄弟的 DALL-E2 (父親都是 OpenAI)的參數量也達到 3.5b。據不是很確定的信源說, Midjourney 的參數量也是同級別的。
模型的參數量背後,代表的當然也有不計成本的資金投入問題。這都是千萬美元級別的砸錢工程。國內這麼做的很少。不過話又說回來,國內互聯網公司似乎也不缺錢,早年幾十億補貼在打車上,如今上百億去啃企業服務市場,對比也挺鮮明的。

4. 現場迭代
「厲害」的另一個原因是,跟前輩們不一樣,Midjourney 和 ChatGPT 都用了一個很新鮮又古老的方法:RLHF(Reinforcement learning with human feedback),就是利用人類反饋的強化學習。
說新鮮,因為過去的很多 AIGC 的建模還是在學術科研領域,並不是投入用戶群眾的汪洋大海里,因此獎勵模型往往要靠人工標註,效率不高;說古老,是因為早在多年前這就是互聯網產品玩剩下的——用戶參與,快速迭代,那本小米的《參與感》在互聯網歷史上甚至已經有陳舊感了。
我看了下 Midjourney 的最新數據是有 600 萬的社群成員。而 ChatGPT 上線不到一周時間就有了 100 萬的註冊用戶量。每次互動,都是在給模型注入新的生命力。
正因如此,它的迭代才快到讓人吃驚。再回顧下這張圖:

5. 誰會失業?
我們肯定不能籠統地說,AIGC 要占領世界、所有內容創作者都要失業云云。很多朋友看到抵制 AI 的畫師們的運動,頗有些上頭,認為已經到了開戰的時候。
其實不然。AIGC 不會替代內容創作者,它替代的只是「重複性的工作」。
Midjourney 會很快替代掉只會重複工作、沒有創意價值的插畫工作,讓大量的海報、插圖、封面等等變得更低成本(當然也會顯著提升整體平均審美)。可是它不是憑空靠想象來作畫的。
很多朋友會以為跟某些傳個頭像做個二次元效果的小程序一樣,Midjourney 就是個全自動的繪圖機器。實際上不然。深度用戶都知道,Midjourney 的難度不在於怎麼充值、怎麼加入社群,只在於 prompt(關鍵詞)。
prompt 背後代表的,實際上就是創意。糟糕的創意也無法出好圖。沒有意圖的作畫,也產生不了任何價值。
比如以下就是我失敗的一堆做圖記錄:
同理的,ChatGPT 也會很快替代掉只會重複工作、沒有創意價值的文字工作者和程序員。
但如何使用 ChatGPT 也是因人而異的。像剛才提到的那些用法,都是實驗了很多次琢磨出來的,ChatGPT 不會在沒有有效提示的情況下,自己就創作出很多的文本內容、寫出很有用的代碼。
像在我問它如何開店的事情上,它其實就非常投機取巧,沒有提供增量信息:

它們依然還是工具。未來的區別在於用工具的人。電影工業摧毀了劇場嗎?並沒有。智能手機的普及摧毀了媒體行業嗎?也並沒有。它們只是讓供給更複雜了、層次更多了。
不過話說回來,電影行業必然侵吞了不少劇場的市場,在這個過程中,去電影院門口拉橫幅是意義不大的。想清楚自己過去在劇場的價值,是否能繼續留下來生存、還是去擁抱變化,這是 AIGC 時代到來後,文字、圖像、音頻、視頻各類形式的內容創作者們都要思考的。

寫在最後
我記得在差不多 7、8 年前,AI 的概念風行的時候,有機會遇到李開復老師,當面就問過這個問題:AI 的出現會替代人類的工作嗎?他說的就是,機械重複的勞動必然是會被淘汰的,我們要關注創意類的事情、機器做不了的事情。
這個觀點在這些年持續有人提到,大家都知道這是對的,但不知道這個時刻何時來到。今年的這個神奇的十一月,就像 1919 年 5 月 29 日在巴西索布拉爾拍到的那張日食照片,證明了相對論的真實性,它也證明了這個觀點的可能性。

未來已來,但確實還不均勻。五年後再看,恐怕滄海桑田。

推薦
三五環 No.98 跟少楠聊聊 AIGC 會讓誰失業:https://www.xiaoyuzhoufm.com/episode/63902e5500d7ad923d6f90ed
對使用 Midjourney 不熟悉的,可以參考這篇:https://zhuanlan.zhihu.com/p/561066258
對使用 ChatGPT 不熟悉的,可以參考這篇:https://zhuanlan.zhihu.com/p/589642999

在「產品沉思錄」專欄,我跟少楠對 AIGC 也會有更多觀察和解讀,推薦關註:

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()