close

大家好,我是 Jack。

時間又來到了假期的最後一晚,今天繼續跟大家閒聊兩句,再講個新技術。

我最近一直在調整生活習慣,吃了一周的蔬菜,外加多多鍛煉,開啟了養生模式。

按照往常的假期,我基本是宅在家裡,要麼工作,要麼學習,要麼創作,很少公園散步。

昨天去了趟奧森,放鬆遛達了一番,風景確實不錯。

大家在忙於學習和工作之餘,一定注意鍛煉身體和健康飲食,別像我,生了病再調整。

難受啊,哈哈。

閒聊結束,進入我們今天的正題。

CogView2

我發現,最近新出的很多論文,都是多模態方向的研究。

比如根據文本生成圖像的Imagen,再比如根據文本生成視頻的CogVideo,我在之前的文章中講過:

該死,我又心動了,這都能行

CogVideo還一直沒有開源,不過它依賴的文本生成圖像的CogView2算法這兩天開源了。

本來我想自己訓練個模型試試,試一試一些奇思妙想。

但看到說明文檔,我就放棄了:

Hardware: Linux servers with Nvidia A100s are recommended, but it is also okay to run the pretrained models with smaller --max-inference-batch-size or training smaller models on less powerful GPUs.

官方推薦使用A100顯卡訓練,這東西什麼級別呢?也別對比GFLOPS了,看着抽象,直接看價錢吧:

沒有相應的設備,就別想訓練了,不過跑一跑pretrained models倒是可以。

項目地址:

https://github.com/thudm/cogview2

想要運行,需要部署下開發環境,不過官方也提供了網頁版,直接體驗。

體驗地址(需要工具):

https://replicate.com/thudm/cogview2

支持英文輸入,比如:

A tiger wearing VR glasses

中文輸入,比如:

穿黑絲的帥哥

打住,不能再亂試了,怕被 FBI 請去喝茶。

算法的理解能力還是有點東西的,看下更多的效果吧:

CogView2 算法基於Transformers,思想是將文本和圖像 tokens 進行大規模生成聯合預訓練。

同時引入Attention Mask,只對 mask 區域計算 loss,使生成效果更穩定。

CogView2 提出一種基於層次 Transformer 和局部平行自回歸生成的解決方案,採用了一個簡單而靈活的自監督任務,跨模態通用語言模型(CogLM),來預訓練一個 6B 參數的 Transformer。

對原理感興趣的小夥伴,可以看看論文:

https://arxiv.org/pdf/2204.14217.pdf

好了,今天就聊這麼多。

最近時間不多,沒有寫一些硬核的技術文,後面慢慢給大家補了~

我是 Jack,我們下期見~


·················END·················
推薦閱讀

• 哎,又進醫院了!• 其實今年,我也掙不到錢了。•我與身旁的美女,格格不入,我決定...

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()