新機器視覺 - 卷積神經網絡（CNN）性能優化方法，經驗－鑽石舞台

點擊下方卡片，關注「新機器視覺」公眾號

重磅乾貨，第一時間送達

引言

卷積（Convolution）是神經網絡的核心計算之一，它在計算機視覺方面的突破性進展引領了深度學習的熱潮。卷積的變種豐富，計算複雜，神經網絡運行時大部分時間都耗費在計算卷積，網絡模型的發展在不斷增加網絡的深度，因此優化卷積計算就顯得尤為重要。

隨着技術的發展，研究人員提出了多種優化算法，包括 Im2col、Winograd 等等。本文首先定義卷積神經網絡的概念，繼而簡要介紹幾種常見的優化方法，並討論作者在該領域的一些經驗。

大部分時間都耗費在計算卷積鏈接：

https://arxiv.org/abs/1807.11164

Im2col 鏈接：

https://www.mathworks.com/help/images/ref/im2col.html

Winograd 鏈接：

https://www.intel.ai/winograd/#gs.avmb0n

卷積神經網絡的概念

卷積神經網絡（Convolution Neural Networks, CNN）的概念拓展自信號處理領域的卷積。信號處理的卷積定義為

(1)

由於對稱性

卷積計算在直覺上不易理解，其可視化後如圖一所示。圖中紅色滑塊在移動過程中與藍色方塊的積繪製成的三角圖案即為卷積結果 (𝑓∗𝑔)(𝑡) 在各點上的取值。

圖一：信號處理中的卷積

信號處理中的卷積鏈接：

https://jackwish.net/convolution-neural-networks-optimization.html

公式1的離散形式為：

(2)

將該卷積拓展到二維空間即可得到神經網絡中的卷積，可簡寫為：

(3)

其中 𝑆 為卷積輸出，𝐼 為卷積輸入，𝐾 為卷積核。該計算的動態可視化可以參考 conv_arithmetic，這裡不再介紹。

conv_arithmetic 鏈接：

https://github.com/vdumoulin/conv_arithmetic

當應用到計算機視覺中處理圖片時，圖片的通道（Channel）可以對二維卷積簡單堆疊，即：

(4)

其中 𝑐c 是輸入的通道。這便是在三維張量中應用二維卷積的計算。

很多時候，公式描述顯得不是很直觀，圖二是堆疊的二維卷積的可視化。其中，與輸入、輸出、卷積核相關的標記帶有前綴 I、O、K。此外，本文圖例對輸出、輸入、卷積核三者的着色一般為：橙色、黃色、綠色。

圖二：卷積計算定義

當中張量的內存布局為 NHWC 時，卷積計算相應的偽代碼如下。其中外三層循環遍歷輸出 𝐶C 的每個數據點，對於每個輸出數據都需要經由內三層循環累加求和得到（點積）。

for(intoh=0;oh<OH;oh++){for(intow=0;ow<OW;ow++){for(intoc=0;oc<OC;oc++){C[oh][ow][oc]=0;for(intkh=0;kh<KH,kh++){for(intkw=0;kw<KW,kw++){for(intic=0;ic<IC,ic++){C[oh][ow][oc]+=A[oh+kh][ow+kw][ic]*B[kh][kw][ic];}}}}}}

和矩陣乘的優化方法類似，我們也可針對該計算進行向量化、並行化、循環展開的基本的優化操作。卷積的問題在於其 𝐾𝐻 和 𝐾𝑊 一般不超過 5 ，這不容易向量化，而計算特徵又有輸入在空間維度存在數據復用。該計算的複雜性導致產生了幾種優化方法，下面我們介紹幾種。

和矩陣乘的優化方法鏈接：

https://jackwish.net/gemm-optimization.html

Im2col 優化算法

作為早期的深度學習框架，Caffe 中卷積的實現採用的是基於 im2col 的方法，至今仍是卷積重要的優化方法之一。

Im2col 是計算機視覺領域中將圖片轉換成矩陣的矩陣列（column）的計算過程。從上一節的介紹中可以看到，二維卷積的計算比較複雜不易優化，因此在深度學習框架發展的早期，Caffe 使用 Im2col 方法將三維張量轉換為二維矩陣，從而充分利用已經優化好的 GEMM 庫來為各個平台加速卷積計算。最後，再將矩陣乘得到的二維矩陣結果使用 Col2im 將轉換為三維矩陣輸出。

Caffe 鏈接：

http://caffe.berkeleyvision.org/

Caffe 使用 Im2col 方法將三維張量轉換為二維矩陣鏈接：

https://github.com/Yangqing/caffe/wiki/Convolution-in-Caffe:-a-memo

算法過程

除非特別說明，本文默認採用的內存布局形式為 NHWC 。其他的內存布局和具體的轉換後的矩陣形狀或許略有差異，但不影響算法本身的描述。

圖三：Im2col 算法計算卷積的過程

圖三是使用 Im2col 算法計算卷積的過程示例，具體的過程包括（簡單起見忽略 Padding 的情況，即認為 𝑂𝐻=𝐼𝐻,𝑂𝑊=𝐼𝑊：

將輸入由 𝐼𝐻×𝐼𝑊×𝐼𝐶 根據卷積的計算特性展開成 (𝑂𝐻×𝑂𝑊)×(𝐾𝐻×𝐾𝑊×𝐼𝐶) 形狀的二維矩陣。顯然，轉換後使用的內存空間相比原始輸入多約 𝐾𝐻∗𝐾𝑊−1 倍。

權重的形狀一般為 𝑂𝐶×𝐾𝐻×𝐾𝑊×𝐼𝐶 四維張量，可以將其直接作為形狀為 (𝑂𝐶)×(𝐾𝐻×𝐾𝑊×𝐼𝐶)) 的二維矩陣處理。

對於準備好的兩個二維矩陣，將 (𝐾𝐻×𝐾𝑊×𝐼𝐶) 作為累加求和的維度，運行矩陣乘可以得到輸出矩陣 (𝑂𝐻×𝑂𝑊)×(𝑂𝐶)。這一過程可以直接使用各種優化過的 BLAS（Basic Linear Algebra Subprograms）庫來完成。

輸出矩陣 (𝑂𝐻×𝑂𝑊)×(𝑂𝐶) 在內存布局視角即為預期的輸出張量 𝑂𝐻×𝑂𝑊×𝑂𝐶 。

Im2col 計算卷積使用 GEMM 的代價是額外的內存開銷。這是因為原始卷積計算中，卷積核在輸入上滑動以計算輸出時，相鄰的輸出計算在空間上復用了一定的輸入輸出。而用 Im2col 將三維張量展開成二維矩陣時，這些原本可以復用的數據平坦地分布到矩陣中，將輸入數據複製了 𝐾𝐻∗𝐾𝑊−1 份。

當卷積核尺寸 𝐾𝐻×𝐾𝑊 是 1×1 時，上述步驟中的 𝐾𝐻 和 𝐾𝑊 可以消去，即輸入轉換後形狀為 (𝑂𝐻×𝑂𝑊)×(𝐼𝐶)，卷積核形狀為 (𝑂𝐶)×(𝐼𝐶)，卷積計算退化為矩陣乘。注意觀察，對於這種情況，Im2col 過程實際上並沒有改變輸入的形狀，因此矩陣乘操作可以直接在原始輸入上運行，從而省去內存組織的過程（即上述步驟中的 1、2、4 步）。

內存布局與卷積性能

神經網絡中卷積的內存布局主要有 NCHW 和 NHWC 兩種，不同的內存布局會影響計算運行時訪問存儲器的模式，特別是在運行矩陣乘時。本小節分析採用 Im2col 優化算法時計算性能性能和內存布局的關係。

特別是在運行矩陣乘時鏈接：

https://jackwish.net/gemm-optimization.html

在完成 Im2col 轉換後，得到用於運行矩陣乘的輸入矩陣和卷積核矩陣。對計算過程施加矩陣計算中常用的數據劃分、向量化等優化方法（相關定義請參考通用矩陣乘（GEMM）優化算法）。下面着重分析在這種場景下，不同內存布局對性能的影響。

通用矩陣乘（GEMM）優化算法鏈接：

https://jackwish.net/gemm-optimization.html

首先考慮 NCHW 內存布局，將 NCHW 內存布局的卷積對應到矩陣乘 𝐶=𝐴𝐵 時，𝐴 是卷積核（filter），𝐵 是輸入（input），各個矩陣的維度如圖四所示。圖中的 𝑀,𝑁,𝐾 用於標記矩陣乘，即

，同時標記出它們和卷積計算中各個維度的關係。

圖四：NCHW 內存布局卷積轉換成的矩陣乘

對該矩陣施行劃分後，我們詳細分析局部性的表現，並標記在圖四中。其中 Inside 表示 4×4 小塊矩陣乘內部的局部性，Outside 表示在削減維度方向小塊之間的局部性。

對輸出而言，小塊內訪存局部性較差，這是因為每次向量化加載會加載四個元素，每次加載都會發生緩存缺失（Cache miss）。外部表現取決於全局計算方向——行優先則局部性較好，列優先則較差。輸出的行為不是這裡的討論終點，畢竟它沒有訪存復用。

對卷積核而言，小塊內訪存局部性較差，這和輸出類似。當小塊加載發生緩存缺失時，處理器會一次性加載一個緩存行（Cache line），這使得後續的若干個小塊訪存都能緩存命中（Cache hit），直到該緩存行全部命中後進入下一個緩存行的範圍。因此小塊外部局部性較好。

對輸入而言，小塊內訪存局部性表現同樣不好。然而不同於卷積核，小塊中因緩存缺失加載到緩存中的緩存行數據只會被使用一次，因為這種內存布局中下一個小塊的地址範圍一般超出了一個緩存行。因此輸入的幾乎每次內存加載都會發生高速緩存缺失——Cache 沒有起到加速的作用，每次訪存都需要到內存取數據。

因此，用 Im2col 處理卷積計算時，NCHW 布局對內存很不友好。

圖五是與之相對的 NHWC 內存布局的示例。值得注意的是，NHWC 和 NCHW 中 𝐴、𝐵 矩陣所代表的張量發生了調換——𝑂𝑢𝑡𝑝𝑢𝑡=𝐼𝑛𝑝𝑢𝑡×𝐹𝑖𝑙𝑡𝑒𝑟（調換一下只是不想多畫一張圖）。具體的拆分方式仍然一樣，也正是上一小節中描述的步驟所構建的矩陣。

圖五：NHWC 內存布局卷積轉換成的矩陣乘

類似地，分析三個張量的訪存表現可知：

對輸出而言，NHWC 和 NCHW 表現一樣。

對輸入而言，小方塊的內部局部性表現不是很好，因為幾次向量加載都會發生緩存不命中；而外部局部性表現則較好，因為在削減維度滑動使用的內存是連續的。這種表現和 NCHW 中卷積核的表現一樣，整體來看都是對高速緩存比較友好的內存布局。

對卷積核而言，NHWC 的情況和 NCHW 中輸入的情況類似，小塊內和小塊外的局部性都較差。

兩種內存布局中的卷積核緩存表現並不是問題，因為卷積核在運行期間保持不變，可以在模型加載階段轉換卷積核的內存布局，使其在小塊外的內存對緩存友好（例如將 (𝐼𝐶×𝐾𝐻×𝐾𝑊)×(𝑂𝐶) 的布局轉換為 (𝑂𝐶)×(𝐼𝐶×𝐾𝐻×𝐾𝑊 ）。

這裡值得說明的是一般框架或引擎的運行都至少可分為兩個階段：準備階段和運行階段。一些模型的預處理工作可以放在準備階段完成，例如重新排布卷積核的內存布局這種在運行階段保持不變的數據。

因此，當使用 Im2col 方法計算時，整體的訪存表現取決於輸入的情況，即 NHWC 的內存布局要比 NCHW 內存布局更加友好。我們在實踐過程中的一個實驗表明，對於一個 1×1 卷積核的卷積，當採用類似的優化方法時，從 NCHW 轉換為 NHWC 可以將高速緩存缺失率從約 50% 降低到 2% 左右。這種程度的提高可以大幅改進軟件的運行性能（這裡特指不使用特別設計過的矩陣乘優化方法）。

空間組合優化算法

Im2col 是一種比較樸素的卷積優化算法，在沒有精心處理的情況下會帶來較大的內存開銷。空間組合（Spatial pack）是一種類似矩陣乘中重組內存的優化算法。

矩陣乘中重組內存鏈接：

https://github.com/flame/how-to-optimize-gemm/wiki#packing-into-contiguous-memory

圖六：空間組合優化算法對計算的劃分

空間組合優化算法是一種基於分治法（Divide and Conquer）的方法——它基於空間特性將卷積計算劃分為若干份，分別處理。圖六所示是在空間上將輸出、輸入劃分為四份。

劃分後，一個大的卷積計算被拆分為若干個小的卷積計算。雖然在劃分的過程中計算總量不變，但計算小矩陣時訪存局部性更好，可以藉由計算機存儲層次結構獲得性能提升。這通過圖七中的步驟來完成。該步驟和上節中 Im2col 重組內存的過程類似：

在 H 和 W 維度劃分，將形狀為 𝑁×𝐻×𝑊×𝐼 的輸入張量拆分為 ℎ∗𝑤 個（兩個方向分別拆分 ℎ 和 𝑤 次）形狀為 𝑁×𝐻/ℎ×𝑊/𝑤×𝐼𝐶 的張量，分別將這些小的張量組織為連續內存；

將得到的 ℎ∗𝑤 個輸入張量分別和卷積核做二維卷積操作，即可得到 ℎ∗𝑤 個形狀為 𝑁×𝐻/ℎ×𝑊/𝑤×𝑂𝐶 的輸出張量；

將這些輸出張量重組內存布局得到最終形狀為 𝑁×𝐻×𝑊×𝑂𝐶 的輸出。

圖七：空間組合計算的步驟

值得注意的是，方便起見，上文的描述中忽略了 Padding 的問題。實際在步驟 1 中將輸入張量劃分為若干個小張量時，除了將劃分的小塊中原始數據拷貝外，還需要將相鄰的小張量的邊界數據拷貝。具體而言，如圖八所示，空間拆分得到的小張量的形狀實際上是：

𝑁×(𝐻/ℎ+2(𝐾𝐻−1))×(𝑊/𝑤+(𝐾𝑊−1))×𝐶.(5)

這裡的 2(𝐾𝐻−1) 和 2(𝐾𝑊−1) 遵循 Padding 規則。規則為

時，它們可以忽略；規則為 SAME 時，位於源張量邊界的一邊 Padding 補

，不在源張量邊界的 Padding 則使用鄰居張量的值。只要考慮一下卷積的計算原理，這是顯而易見的。

圖八：空間組合算法的劃分細節

上面的三個示例圖都是拆分為 4 份的情況，實際應用中可以拆為很多份。例如可以拆成小張量邊長為 4 或者 8 ，從而方便編譯器向量化計算操作。隨着拆分出的張量越小，其局部性也越高，負面作用是消耗的額外內存也越多。這些額外內存是由於 Padding 引入的。當拆分為 ℎ∗𝑤h∗w份時，拆分後 Padding 消耗的內存為：

可以看到，隨着拆分的粒度越小，額外消耗的內存越大。值得注意的是，當拆分到最細粒度時，即將在形狀為 𝑁×𝐻×𝑊×𝑂𝐶 的輸出的空間上拆分𝐻∗𝑊 份時，空間組合退化為 Im2col 方法。此時在一個元素上的卷積即為矩陣乘計算一個輸出元素時的點積。

只做空間劃分時，劃分與卷積核無關。而如果在輸出的通道維度劃分，卷積核也可做相應的拆分。通道維度的劃分相當於固定空間劃分後簡單的堆疊，不會對影響內存消耗，但會影響局部性。對於不同規模的卷積，尋找合適的劃分方法不是一件容易的事情。正如計算機領域的許多問題一樣，該問題也是可以自動化的，例如AutoTVM可以在這種情況下尋找較優的劃分方法。

AutoTVM 鏈接：

https://arxiv.org/abs/1805.08166

Winograd 優化算法

前兩節介紹的兩種算法，Im2col 在將三維張量組織成矩陣後調用 GEMM 計算庫，這些計算庫很大程度上使用一些基於訪存局部性的優化；空間組合優化則本身就是利用局部性優化的方法。

本小節介紹的 Winograd 優化算法則是矩陣乘優化方法中 Coppersmith–Winograd 算法的一種應用，是基於算法分析的方法。

這部分公式過多，排版不便，有興趣的話可以參考原文或其他相關文獻。

參考原文鏈接：https://jackwish.net/convolution-neural-networks-optimization.html
間接卷積優化算法

Marat Dukhan 在 QNNPACK（Quantized Neural Network PACKage）中推出了間接卷積算法（The Indirect Convolution Algorithm），似乎到目前為止（2019 年中）依然是所有已公開方法中最快的。

雖然該算法在 QNNPACK 中的實現主要用於量化神經網絡（業界的其他量化優化方案都比較傳統 TensorFlow Lite 使用 Im2col 優化算法、騰訊出品的 NCNN使用 Winograd 優化算法；OpenAI 出品的 Tengine 使用 Im2col 優化算法），但其是一種同樣的優化算法設計。

本文寫作時設計文章尚未公開，而理解該算法設計很多細節內容，最好能結合代碼理解。我的 QNNPACK fork 包含一個 explained 分支，其中對增加了對部分代碼的注釋，可作參考。

QNNPACK 鏈接：

https://github.com/pytorch/QNNPACK

TensorFlow Lite 使用 Im2col 優化算法鏈接：

https://github.com/tensorflow/tensorflow/blob/v2.0.0-beta1/tensorflow/lite/kernels/internal/optimized/integer_ops/conv.h

NCNN使用 Winograd 優化算法鏈接：

https://github.com/Tencent/ncnn/blob/20190611/src/layer/arm/convolution_3x3_int8.h

Tengine 使用 Im2col 優化算法鏈接：

https://github.com/OAID/Tengine/blob/v1.3.2/executor/operator/arm64/conv/conv_2d_fast.cpp

我的 QNNPACK fork 鏈接：

https://github.com/jackwish/qnnpack

計算工作流

間接卷積算法的有效工作以來一個關鍵的前提——網絡連續運行時，輸入張量的內存地址保持不變。這一特性其實比較容易滿足，即使地址真的需要變化，也可以將其拷貝到固定的內存區域中。

圖九：間接卷積算法工作流

圖九是間接卷積算法工作流的詳細過程。最左側部分表示多個輸入使用相同的輸入緩衝區（Input Buffer）。間接卷積算法會在該輸入緩衝區基礎上構建如圖十的「間接緩衝區」（Indirect Buffer），而間接緩衝區是間接卷積算法的核心。如圖中右側，在網絡運行時，每次計算出 𝑀×𝑁 規模的輸出，其中 𝑀 為將 𝑂𝐻×𝑂𝑊 視作一維後的向量化規模。

一般 𝑀×𝑁 為 4×4、8×8 或 4×8 。在計算 𝑀×𝑁 規模大小的輸出時，經由間接緩衝區取出對應使用的輸入，並取出權重，計算出結果。計算過程等價於計算 𝑀×𝐾 和 𝐾×𝑁 矩陣乘。

在實現中，軟件的執行過程分為兩部分：

準備階段：加載模型，配置輸入緩衝區；重排權重，使其內存布局適用於後續計算；

運行階段：對於每個輸入，運行 ⌈𝑂𝐻∗𝑂𝑊/𝑀⌉∗⌈𝑂𝐶/𝑁⌉次核心循環，每次使用 GEMM 方法計算出 𝑀×𝑁 大小的輸出。

圖十：間接緩衝區

如相關章節的討論，Im2col 優化算法存在兩個問題，第一是占用大量的額外內存，第二是需要對輸入進行額外的數據拷貝。這兩點如何才能解決呢？間接卷積算法給出的答案是間接緩衝區（Indirect Buffer），如圖十右半所示。

圖十是常規的 Im2col 優化算法和間接卷積優化算法的對比。正如相關小節介紹的那樣，Im2col 優化算法首先將輸入拷貝到一個矩陣中，如圖十中 Input 的相關箭頭，然後執行矩陣乘操作。

間接卷積優化算法使用的間接緩衝區中存儲的其實是指向輸入的指針（這也是間接卷積優化算法要求輸入內存地址固定的原因），在運行時根據這些指針即可模擬出類似於 Im2col 的矩陣計算過程。

間接緩衝區布局

間接緩衝區可以理解為是一組卷積核大小的緩衝區，共有 𝑂𝐻×𝑂𝑊 個，每個緩衝區大小為 𝐾𝐻×𝐾𝑊——每個緩衝區對應着某個輸出要使用的輸入的地址。每計算一個空間位置的輸出，使用一個間接緩衝區；空間位置相同而通道不同的輸出使用相同的間接緩衝區，緩衝區中的每個指針用於索引輸入中 𝐼𝐶 個元素。

在計算時，隨着輸出的移動，選用不同的間接緩衝區，即可得到相應的輸入地址。無需再根據輸出目標的坐標計算要使用的輸入的地址，這等同於預先計算地址。

圖十一繪製了當 𝑀×𝑁 為 4 、𝐾𝐻 和 𝐾𝑊 均為 3 時，間接緩衝區的實際使用方法與計算過程。圖中命名為局部間接緩衝區意指目前考慮的是計算 𝑀×𝑁 時核心計算的過程。

當計算 𝑀×𝑁 大小的輸出時，使用的輸入為卷積核在對應輸入位置上滑動 𝑀 步所覆蓋的趨於，即規模 (𝐾𝐻)×(𝑀+2(𝐾𝑊−1))×𝐼𝐶 的輸入。在間接卷積算法中，這些輸入內存由 𝑀M個間接緩衝區中的指針索引，共有 𝑀×𝐾𝐻×𝐾𝑊 個。

圖十一中標識出了輸入空間位置左上角輸入和相應的輸入緩衝區的對應關係。可以看到，這裡的 A、B、C、D 四個輸入緩衝區，相鄰的兩個緩衝區所指向的地址區域有 (𝐾𝑊−𝑆𝑡𝑟𝑖𝑑𝑒)/𝐾𝑊 ，這裡即為 2/3 ，各個緩衝區中指針的坐標也已標明。

圖十一：間接緩衝區詳解

圖中將平面緩衝區繪製成三維形式（增加 IC 維度），意在說明間接緩衝區的每個指針可索引 IC 個輸入元素，而每個間接緩衝區索引的內容即為與權重對應的輸入內存區域。

進一步地，左上角的輸入緩衝區排列方式並不是最終的排布方法，實際上這些指針會被處理成圖十一中部間接緩衝區的形式。將左上每個緩衝區中的指針打散，即可得到 𝐾𝐻×𝐾𝑊 指針，將 A、B、C、D 四個緩衝區的不同空間位置的指針收集到一起，即可得到圖中上部分的緩衝區排列方式 𝐾𝐻×𝐾𝑊×𝑀。可以看到， A、B、C、D 四個緩衝區內部相同空間位置的指針被組織到了一起。

圖中中上部分是可視化的效果，中下部分則是間接緩衝區的真正組織方式。圖中褐色和深黃色的着色對應着相同的輸入內存或指針。值得注意的是，圖例中 Stride 為 1，當 Stride 不為 1 時，重新組織後 A、B、C、D 相同空間的坐標（對應於在輸入的坐標）不一定是連續的，相鄰的空間位置橫向坐標相差 𝑆𝑡𝑟𝑖𝑑𝑒 大小。

使用間接緩衝區計算

我們已經知道了間接緩衝區的組織形式，以及其指針對應於輸入內存的地址趨於，現在來研究在計算過程中如何使用這些緩衝區。

和上一小節一樣，本小節的討論大體都在計算 𝑀×𝑁 規模的輸出，而這些輸出要使用 𝑀 個 𝐾𝐻×𝐾𝑊 大小的輸入，其中有數據重用。現在回顧一下 Im2col 的算法（如圖十一中下左部分），當向量化運行計算時，對於 𝑀×𝑁 的矩陣乘計算，每次取出 𝑀×𝑆 規模的輸入和 𝑆×𝑁 規模的權重，對該塊運行矩陣乘即可得到相應的部分和結果。其中 𝑆 是向量化計算在 𝐾K維度上的步進因子。

而卷積之所以可以使用 Im2col 優化算法，本質原因在於其拆解後忽略內存復用後的計算過程等價於矩陣乘。而間接緩衝區使得可以通過指針模擬出對輸入的訪存。

在實際運行計算 𝑀×𝑁 輸出的計算核（micro kernel）時，會有 𝑀 個指針掃描輸入。𝑀個指針每次從圖十一中下部分的間接緩衝區結構中取出 𝑀 個地址，即對應於輸入 𝑀×𝐼𝐶 的內存，如圖中右上角的布局。在這裡的步進中，仍是以 𝑀×𝑆 形式運行，其中 𝑆 在 𝐼𝐶 維度上運動。

當這部分輸入掃描完畢後，這 𝑀 個指針從間接緩衝區中取出相應的指針，繼續下一次對 𝑀×𝐼𝐶 輸入內存的遍歷，每次計算出 1/(𝐾𝐻∗𝐾𝑊) 的輸出部分和。當這個過程運行 𝐾𝐻×𝐾𝑊 次後，即得到了 𝑀×𝑁 的輸出。

圖十一右下角的偽代碼對應了這一過程。由於間接緩衝區已經被組織成了特定的形狀，因此每次更新 𝑀 個指針時，只需要從間接緩衝區指針（圖中偽代碼里的 p_indirect_buffer）中獲取。

這個過程的邏輯不易理解，這裡再做一點補充說明。當上述的 𝑀 個指針不斷運動掃描內存時，實際上是在掃描三維輸入 Im2col 之後的矩陣。而輸入緩衝區的特定是它將對二維矩陣的掃描轉化為了對三維張量的掃描。

對輸入的掃描過程即是對圖十一中上部分可視化的輸入的掃描，聯繫左上和左下對應的輸入關係，不難發現它每次掃描輸入中 𝑀×𝐼𝐶 塊內存。值得注意的是，這裡的 𝑀×𝐼𝐶 由 𝑀 個 1×𝐼𝐶 張量組成，它們之間 𝑊 維度的間距為 𝑆𝑡𝑟𝑖𝑑𝑒。

這樣一來，只要運行該計算核心 ⌈𝑂𝐻∗𝑂𝑊/𝑀⌉∗⌈𝑂𝐶/𝑁⌉ 次，即可得到全部輸出。

間接卷積優化算法解決了卷積計算的三個問題，第一是空間向量化問題，第二是地址計算複雜問題，第三是內存拷貝問題。一般計算卷積時都需要對輸入補零（對於 𝐾𝐻×𝐾𝑊 不是 1×1 的情況），這個過程傳統的方法都會發生內存拷貝。而間接卷積優化算法中的間接緩衝區可以通過間接指針巧妙地解決這一問題。

在構造間接緩衝區時額外創建一塊 1×𝐼𝐶 的內存緩衝區，其中填入零值，對於空間中需要補零的位置，將相應的間接指針指向該緩衝區，那麼後續計算時即相當於已經補零。例如圖十一中 A 的左上角對應於輸入空間位置 (0,0) 的，當需要補零時該位置一定要為零值，此時只要修改間接緩衝區的地址即可。

討論、總結與展望

至此，本文探討了一些已經發表或開源的卷積神經網絡的優化方法。這些優化方法或多或少地推動了深度學習技術在雲端或移動端的應用，幫助了我們的日常生活。例如，最近上海人民乃至全中國人們頭疼的垃圾分類問題，也可以利用深度學習方法來幫助人們了解如何分類。

利用深度學習方法來幫助人們了解如何分類鏈接：

https://news.mydrivers.com/1/633/633858.htm

從本文的集中優化方法中可以看到，卷積神經網絡的優化算法依然可以囊括在基於算法分析的方法和基於軟件優化的方法。實際上，在現代計算機系統中，基於軟件優化的方法，特別是基於計算機存儲層次結構的優化顯得更為重要，因為其方法更容易挖掘和應用。

另一方面也是因為現代計算機新增的專用指令已經可以抹除不同計算的耗時差異。在這種場景下，基於算法分析的方法要和基於軟件優化的方法結合或許能取得更優的優化效果。

最後，本文討論的優化方法都是通用的方法，而隨着神經網絡處理器（如寒武紀 MLU、Google TPU）的發展，以及其他通用計算處理器的拓展（如點積相關的指令：Nvidia GPU DP4A、Intel AVX-512 VNNI、ARM SDOT/UDOT ），深度學習的優化或許還值得繼續投入資源。

寒武紀 MLU 鏈接：

https://www.jiqizhixin.com/articles/2019-06-20-12

Nvidia GPU DP4A 鏈接：

https://devblogs.nvidia.com/mixed-precision-programming-cuda-8/

Intel AVX-512 VNN 鏈接：

https://devblogs.nvidia.com/mixed-precision-programming-cuda-8/

本文寫作過程中參考了以下（包括但不限於）資料：

QNNPACK

（鏈接：https://github.com/pytorch/QNNPACK ）

Convolution in Caffe

（鏈接：https://github.com/Yangqing/caffe/wiki/Convolution-in-Caffe:-a-memo ）

TensorFlow

Wikipedia

Fast Algorithms for Convolutional Neural Networks

（鏈接：https://github.com/Tencent/ncnn ）

NCNN

（鏈接：https://github.com/OAID/Tengine ）

Tengine

（鏈接：https://jackwish.net/neural-network-quantization-introduction-chn.html ）

神經網絡量化簡介

（鏈接：https://jackwish.net/neural-network-quantization-introduction-chn.html ）

通用矩陣乘（GEMM）優化算法

（鏈接：https://jackwish.net/gemm-optimization.html ）

The Indirect Convolution Algorithm

作者：黎明灰燼

https://zhuanlan.zhihu.com/p/80361782

本文僅做學術分享，如有侵權，請聯繫刪文。

—THE END—

鑽石舞台

鑽石舞台發表在痞客邦留言(0) 人氣()

鑽石舞台

鑽石鑽石亮晶晶

新機器視覺 - 卷積神經網絡（CNN）性能優化方法，經驗

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

鑽石舞台

鑽石鑽石亮晶晶

新機器視覺 - 卷積神經網絡（CNN）性能優化方法，經驗

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

贊助商連結