大家好,我是 Jack。
時間又來到了假期的最後一晚,今天繼續跟大家閒聊兩句,再講個新技術。
我最近一直在調整生活習慣,吃了一周的蔬菜,外加多多鍛煉,開啟了養生模式。
按照往常的假期,我基本是宅在家裡,要麼工作,要麼學習,要麼創作,很少公園散步。
昨天去了趟奧森,放鬆遛達了一番,風景確實不錯。

大家在忙於學習和工作之餘,一定注意鍛煉身體和健康飲食,別像我,生了病再調整。
難受啊,哈哈。
閒聊結束,進入我們今天的正題。
CogView2我發現,最近新出的很多論文,都是多模態方向的研究。
比如根據文本生成圖像的Imagen,再比如根據文本生成視頻的CogVideo,我在之前的文章中講過:
該死,我又心動了,這都能行
CogVideo還一直沒有開源,不過它依賴的文本生成圖像的CogView2算法這兩天開源了。

本來我想自己訓練個模型試試,試一試一些奇思妙想。
但看到說明文檔,我就放棄了:
官方推薦使用A100顯卡訓練,這東西什麼級別呢?也別對比GFLOPS了,看着抽象,直接看價錢吧:

沒有相應的設備,就別想訓練了,不過跑一跑pretrained models倒是可以。
項目地址:
https://github.com/thudm/cogview2
想要運行,需要部署下開發環境,不過官方也提供了網頁版,直接體驗。
體驗地址(需要工具):
https://replicate.com/thudm/cogview2
支持英文輸入,比如:
A tiger wearing VR glasses

中文輸入,比如:
穿黑絲的帥哥

打住,不能再亂試了,怕被 FBI 請去喝茶。
算法的理解能力還是有點東西的,看下更多的效果吧:

CogView2 算法基於Transformers,思想是將文本和圖像 tokens 進行大規模生成聯合預訓練。
同時引入Attention Mask,只對 mask 區域計算 loss,使生成效果更穩定。

CogView2 提出一種基於層次 Transformer 和局部平行自回歸生成的解決方案,採用了一個簡單而靈活的自監督任務,跨模態通用語言模型(CogLM),來預訓練一個 6B 參數的 Transformer。
對原理感興趣的小夥伴,可以看看論文:
https://arxiv.org/pdf/2204.14217.pdf
好了,今天就聊這麼多。
最近時間不多,沒有寫一些硬核的技術文,後面慢慢給大家補了~
我是 Jack,我們下期見~

• 哎,又進醫院了!• 其實今年,我也掙不到錢了。•我與身旁的美女,格格不入,我決定...