Jack - 噓，差點被警察帶走－鑽石舞台

大家好，我是 Jack。

時間又來到了假期的最後一晚，今天繼續跟大家閒聊兩句，再講個新技術。

我最近一直在調整生活習慣，吃了一周的蔬菜，外加多多鍛煉，開啟了養生模式。

按照往常的假期，我基本是宅在家裡，要麼工作，要麼學習，要麼創作，很少公園散步。

昨天去了趟奧森，放鬆遛達了一番，風景確實不錯。

大家在忙於學習和工作之餘，一定注意鍛煉身體和健康飲食，別像我，生了病再調整。

難受啊，哈哈。

閒聊結束，進入我們今天的正題。

CogView2

我發現，最近新出的很多論文，都是多模態方向的研究。

比如根據文本生成圖像的Imagen，再比如根據文本生成視頻的CogVideo，我在之前的文章中講過：

該死，我又心動了，這都能行

CogVideo還一直沒有開源，不過它依賴的文本生成圖像的CogView2算法這兩天開源了。

本來我想自己訓練個模型試試，試一試一些奇思妙想。

但看到說明文檔，我就放棄了：

Hardware: Linux servers with Nvidia A100s are recommended, but it is also okay to run the pretrained models with smaller --max-inference-batch-size or training smaller models on less powerful GPUs.

官方推薦使用A100顯卡訓練，這東西什麼級別呢？也別對比GFLOPS了，看着抽象，直接看價錢吧：

沒有相應的設備，就別想訓練了，不過跑一跑pretrained models倒是可以。

項目地址：

https://github.com/thudm/cogview2

想要運行，需要部署下開發環境，不過官方也提供了網頁版，直接體驗。

體驗地址（需要工具）：

https://replicate.com/thudm/cogview2

支持英文輸入，比如：

A tiger wearing VR glasses

中文輸入，比如：

穿黑絲的帥哥

打住，不能再亂試了，怕被 FBI 請去喝茶。

算法的理解能力還是有點東西的，看下更多的效果吧：

CogView2 算法基於Transformers，思想是將文本和圖像 tokens 進行大規模生成聯合預訓練。

同時引入Attention Mask，只對 mask 區域計算 loss，使生成效果更穩定。

CogView2 提出一種基於層次 Transformer 和局部平行自回歸生成的解決方案，採用了一個簡單而靈活的自監督任務，跨模態通用語言模型(CogLM)，來預訓練一個 6B 參數的 Transformer。

對原理感興趣的小夥伴，可以看看論文：

https://arxiv.org/pdf/2204.14217.pdf

好了，今天就聊這麼多。

最近時間不多，沒有寫一些硬核的技術文，後面慢慢給大家補了~

我是 Jack，我們下期見~

·················END·················

鑽石舞台

鑽石鑽石亮晶晶

Jack - 噓，差點被警察帶走

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣