DeeplearningAI - The Batch: 318 | 多模態人工智能騰飛－鑽石舞台

Hi～新朋友，記得關注我們喲

The Batch: 318|多模態人工智能騰飛

雖然分別處理文本和圖像的GPT-3和EfficientNet等模型為深度學習帶來了頗為亮眼的成功，但發現文本和圖像之間關係的方法取得了更令人駐足的進展。

●發生了什麼：OpenAI開啟了多模態學習的重要一年——CLIP匹配圖像和文本，Dall·E生成與輸入文本對應的圖像。DeepMind的Perceiver IO 可以對文本、圖像、視頻和點雲數據進行分類。斯坦福大學的ConVIRT為醫用x射線圖像添加了文本標籤。

●故事發展：儘管最新的多模態系統大多是實驗性的，但也在一些現實世界的應用中取得了突破。

✴開源社區將CLIP與生成式對抗網絡結合在一起，創造出引人注目的數字藝術作品。藝術家Martin O 'Leary將Samuel Coleridge的史詩《忽必烈汗》作為輸入，生成了迷幻的滾動視頻解讀——「蜿蜒的小溪」。

✴臉書表示，它的多模態仇恨言論檢測器標記出了97%從該社交網絡上刪除的侮辱性和有害內容。該系統根據文本、圖像、視頻等10種數據類型，將模因和其他圖像-文本對分類為良性或有害。

✴谷歌表示，它將為其搜索引擎添加多模態(和多語言)功能。它的多任務統一模型會返回文本、音頻、圖像和視頻鏈接，以響應75種語言中的任何一種。

●新聞背後：今年的多模態浪潮是在幾十年的研究基礎上催生出來的。1989年，約翰霍普金斯大學和加州大學聖地亞哥分校的研究人員開發了一種系統，根據人們說話的音頻和視覺數據對元音進行分類。在接下來的20年裡，不同的小組嘗試了多模態應用，如數字視頻庫索引和基於視聽數據對人類情感進行分類。

●現狀：圖像和文本是如此複雜，以至於在過去，研究人員只能專注於其中之一。在此過程中，他們研發出了非常不同的技術。然而，在過去的十年裡，計算機視覺和自然語言處理匯集到了神經網絡上，為合併這兩種模式從而建立統一模型打開了大門。下一步是尋找能夠同時整合音頻的模型。

點擊下方閱讀原文查看更多有趣內容哦~

鑽石舞台

鑽石舞台發表在痞客邦留言(0) 人氣()

鑽石舞台