來源:內容由半導體行業觀察(ID:icbank)編譯自eenewseurope,謝謝。
ARM 和 IBM 的研究人員開發了一種 14nm 模擬計算內存芯片,用於始終保持機器學習的低功耗。
物聯網應用中這些始終在線的感知任務(稱為 TinyML)需要非常高的能源效率。使用非易失性存儲器 (NVM) 的模擬內存計算 (CiM) 有望實現高能效和獨立的片上模型存儲。
然而,模擬 CiM 引入了新的實際挑戰,包括電導漂移、讀/寫噪聲、固定模數 (ADC) 轉換器增益等。必須解決這些問題,以實現可部署在模擬 CiM 上且具有可接受的精度損失的模型.
來自 ARM 和 IBM 蘇黎世研究院的研究人員研究了 TinyML 模型,用於關鍵詞發現 (KWS) 和視覺喚醒詞 (VWW) 等流行的永遠在線任務。模型架構專為模擬 CiM 設計,並詳細介紹了全面的訓練方法,以在面對模擬問題和推理時的低精度數據轉換器時保持準確性。
他們基於 14nm 工藝技術開發了一種可編程的最小面積相變存儲器 (PCM) 模擬 CiM 加速器,稱為 AON-CiM。這具有一系列層,消除了與全流水線設計相關的複雜互連的成本。
在經過校準的模擬器以及真實硬件上評估模擬網絡表明,在 24 小時 PCM 漂移(8 位)之後,精度下降限制在 0.8%/1.2%。在 14 nm AON-CiM 加速器上運行網絡演示了 8.55/26.55/56.67 和 4.34/12.64/25.2 TOPS/W 用於關鍵字識別 (KWS) 和視覺喚醒詞 (VWW) 與 8/6/4 位激活分別。
「模擬內存計算技術可能非常適合超低功耗 TinyML 感知任務,例如邊緣計算應用程序中的關鍵字發現和視覺喚醒詞,」美國 ARM 研究公司機器學習研究負責人 Paul Whatmough 說
「我們的論文與出色的 IBM Research Zurich 團隊合作,深入探討了機器學習模型和模擬硬件的協同設計,涵蓋了噪聲硬件的模型設計和訓練,以及緊湊高效(實用)的硬件用於內存中的層串行計算。我們甚至在真實硬件上測試模型。」
存內處理將徹底改變模擬計算
在最近的一份報告中,中國阿里巴巴表示,其研究中心達摩院已通過突破性的內存處理 (PIM) 芯片打破了馮諾依曼瓶頸,該芯片在 3D 中堆疊內存和邏輯。
這其實不是大公司第一次轉向垂直結構以縮短內存和計算之間的距離。幾年前,IBM 發表了關於3D 堆棧存儲器和字節可尋址電阻非易失性存儲器 (NVM) 如何為 EE 解決 PIM 的新方法的研究。

3D 堆疊 DRAM 架構從這個話題,我們看到了 PIM 的研究在大學和主要半導體供應商之間是如何升溫的。
PIM 如何重新思考馮諾依曼架構
傳統的馮諾依曼計算機體系結構使用一個子系統進行數據存儲,使用另一個子系統進行計算。數據和邏輯是分開的。
要執行操作,必須通過向內存控制器發送內存請求,將數據從 DRAM 存儲移動到 CPU,通過窄內存通道進行通信。但是這種從 DRAM 到 CPU 的轉移可能會給系統帶來主要的瓶頸問題——增加能源消耗,同時減慢多個內存請求的交換速度。這就是系統一直工作的方式,至少自從數字二進制模型被廣泛採用以來。

馮諾依曼架構存內處理式存儲器(PIM)模型通過合併運算和數據這就是為什麼PIM也稱為反思馮·諾依曼體系結構近數據處理。
一些研究小組和公司正在創建 PIM 架構,以使內存處理更接近現實。去年,All About Circuits 討論了有多少公司發現內存計算可以在速度、容量和處理方面解決 AI 內存平衡問題。這是因為,與數字芯片不同,PIM AI 芯片在模擬領域執行——Imec 和 Globalfoundries在最近的 AI 芯片中將其稱為「模擬內存計算(AiMC)」。
PIM 研究使模擬計算遠離數字計算
現在,聖路易斯華盛頓大學的一個研究小組,由Xuan「Silvia」Zhang領導,使用電阻代替晶體管,構建了繞過馮諾依曼架構限制的PIM電路。存儲器和處理器都在電阻器中。組件的這种放置使得從模擬到數字或二進制 (1-0) 的轉換變得不必要,並簡化了 AI 計算所需的複雜加法和乘法。
PIM 電路不是使用晶體管來打開和關閉柵極並控制電流流動或不流動(創建 1 和 0 的序列),而是通過連接兩個電流並通過調整電阻值進行乘法來執行加法。

內存計算背後的工作原理但是,在某些時候,模擬數據必須轉換為數字數據才能融入當今的數字技術。研究人員最初假設這僅需要將 ADC(模數轉換)在轉換層次結構中進一步向下移動。
然而,該團隊發現,引入神經逼近器可以提高多個方向上單獨轉換的電阻列的處理效率:向下、橫向或任何其他最大效率方向。
Zhang 的團隊做出的最重要的發現是,可以使用單個 ADC 將 RRAM crossbar 列創建的部分和轉換為數字格式,無論它們的數量是 18、64 還是 128,從而減少了外邊緣的轉換次數儘可能。
三星支持內存處理
華盛頓大學的研究結果提出了一個有趣的問題:模擬會推動計算的未來嗎?三星最近對內存處理應用的投資可能會回答這個問題。
三星正試圖通過將高帶寬內存 (HBM) 和內存處理與加速器系統集成來彌合內存和邏輯之間的差距。結果是 HBM-PIM 架構適用於移動和其他商業 DRAM 模塊,包括數據中心和超級計算機。

帶有內置 AI 引擎的 AXDIMM 緩衝芯片 DIMM (AXDIMM) 緩衝芯片(一種可以處理多個內存列的多核處理器)中的加速是通過稱為可編程計算單元 (PCU)的內置 AI 引擎實現的。據稱,該設備可將系統性能提高 2.5 倍,並將能耗降低 60%。
三星已經看到這款 PCU 在圖像分類、語音識別和翻譯方面取得了可喜的成果。SAP HANA 還與三星合作改進內存數據庫管理系統 (IMDBMS)。
PIM 是否有助於減輕邊緣 AI 處理的負擔?
隨着越來越多的處理需求堆積在嵌入式系統上,尤其是在邊緣,製造商正在尋找方法來減少從內存中獲取數據的旅行時間。隨着 PIM 在學術和行業領域獲得越來越多的關注,內存計算可能是一種可行的解決方案——尤其是在三星和 IBM 等知名企業大力推廣的情況下。
儘管如此,程序員仍面臨着定義與編程模型通信的方式的挑戰性任務。這些工程師和系統架構師還必須找到數據分配問題和 PIM 運行時調度的解決方案。
★ 點擊文末【閱讀原文】,可查看本文原文鏈接!
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點讚同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。
今天是《半導體行業觀察》為您分享的第3158內容,歡迎關注。
推薦閱讀
★一個號稱「萬能」的CPU架構
★火爆的激光雷達市場,股價跌至不足1美元!
★英特爾,三年後重返巔峰?
半導體行業觀察

『半導體第一垂直媒體』
實時 專業 原創 深度
識別二維碼,回復下方關鍵詞,閱讀更多
晶圓|集成電路|設備|汽車芯片|存儲|台積電|AI|封裝
回復 投稿,看《如何成為「半導體行業觀察」的一員 》
回復 搜索,還能輕鬆找到其他你感興趣的文章!

