機器學習研究組訂閱 - 可逆神經網絡（Invertible Neural Networks）詳細解析：讓神經網絡更加輕量化－鑽石舞台

為什麼要用可逆網絡呢？

因為編碼和解碼使用相同的參數，所以 model 是輕量級的。可逆的降噪網絡 InvDN 只有 DANet 網絡參數量的 4.2%，但是 InvDN 的降噪性能更好。

由於可逆網絡是信息無損的，所以它能保留輸入數據的細節信息。

無論網絡的深度如何，可逆網絡都使用恆定的內存來計算梯度。

其中最主要目的就是為了減少內存的消耗，當前所有的神經網絡都採用反向傳播的方式來訓練，反向傳播算法需要存儲網絡的中間結果來計算梯度，而且其對內存的消耗與網絡單元數成正比。這也就意味着，網絡越深越廣，對內存的消耗越大，這將成為很多應用的瓶頸。

下面是 Pytorch summary 的結果，Forward/backward pass size（MB）: 218.59就是需要保存的中間變量大小，可以看出這部分占據了很大部分顯存（隨着網絡深度的增加，中間變量占據顯存量會一直增加，resnet152（size=224）的中間變量更是占據總共內存的606.6÷836.79≈0.725）。如果不存儲中間層結果，那麼就可以大幅減少 GPU 的顯存占用，有助於訓練更深更廣的網絡。

import torchfrom torchvision import modelsfrom torchsummary import summarydevice = torch.device('cuda' if torch.cuda.is_available() else 'cpu')vgg = models.vgg16().to(device)summary(vgg, (3, 224, 224))

結果：

---------------------------------------------------------------- Layer (type) Output Shape Param #================================================================ Conv2d-1 [-1, 64, 224, 224] 1,792 ReLU-2 [-1, 64, 224, 224] 0 Conv2d-3 [-1, 64, 224, 224] 36,928 ReLU-4 [-1, 64, 224, 224] 0 MaxPool2d-5 [-1, 64, 112, 112] 0 Conv2d-6 [-1, 128, 112, 112] 73,856 ReLU-7 [-1, 128, 112, 112] 0 Conv2d-8 [-1, 128, 112, 112] 147,584 ReLU-9 [-1, 128, 112, 112] 0 MaxPool2d-10 [-1, 128, 56, 56] 0 Conv2d-11 [-1, 256, 56, 56] 295,168 ReLU-12 [-1, 256, 56, 56] 0 Conv2d-13 [-1, 256, 56, 56] 590,080 ReLU-14 [-1, 256, 56, 56] 0 Conv2d-15 [-1, 256, 56, 56] 590,080 ReLU-16 [-1, 256, 56, 56] 0 MaxPool2d-17 [-1, 256, 28, 28] 0 Conv2d-18 [-1, 512, 28, 28] 1,180,160 ReLU-19 [-1, 512, 28, 28] 0 Conv2d-20 [-1, 512, 28, 28] 2,359,808 ReLU-21 [-1, 512, 28, 28] 0 Conv2d-22 [-1, 512, 28, 28] 2,359,808 ReLU-23 [-1, 512, 28, 28] 0 MaxPool2d-24 [-1, 512, 14, 14] 0 Conv2d-25 [-1, 512, 14, 14] 2,359,808 ReLU-26 [-1, 512, 14, 14] 0 Conv2d-27 [-1, 512, 14, 14] 2,359,808 ReLU-28 [-1, 512, 14, 14] 0 Conv2d-29 [-1, 512, 14, 14] 2,359,808 ReLU-30 [-1, 512, 14, 14] 0 MaxPool2d-31 [-1, 512, 7, 7] 0 Linear-32 [-1, 4096] 102,764,544 ReLU-33 [-1, 4096] 0 Dropout-34 [-1, 4096] 0 Linear-35 [-1, 4096] 16,781,312 ReLU-36 [-1, 4096] 0 Dropout-37 [-1, 4096] 0 Linear-38 [-1, 1000] 4,097,000================================================================Total params: 138,357,544Trainable params: 138,357,544Non-trainable params: 0----------------------------------------------------------------Input size (MB): 0.57Forward/backward pass size (MB): 218.59Params size (MB): 527.79Estimated Total Size (MB): 746.96----------------------------------------------------------------

接下來我將先從可逆神經網絡講起，然後是神經網絡的反向傳播，最後是標準殘差網絡。對反向傳播算法和標準殘差網絡比較熟悉的小夥伴，可以只看第一節：可逆神經網絡。如果各位小夥伴不熟悉反向傳播算法和標準殘差網絡，建議先看第二節：反向傳播（BP）算法和第三節：殘差網絡（Residual Network）。本文1.2和1.3.4摘錄自 @阿亮。

可逆神經網絡

可逆網絡具有的性質：

網絡的輸入、輸出的大小必須一致。

網絡的雅可比行列式不為 0。

1.1 什麼是雅可比行列式？

雅可比行列式通常稱為雅可比式（Jacobian），它是以 n 個 n 元函數的偏導數為元素的行列式。事實上，在函數都連續可微（即偏導數都連續）的前提之下，它就是函數組的微分形式下的係數矩陣（即雅可比矩陣）的行列式。若因變量對自變量連續可微，而自變量對新變量連續可微,則因變量也對新變量連續可微。這可用行列式的乘法法則和偏導數的連鎖法則直接驗證。也類似於導數的連鎖法則。偏導數的連鎖法則也有類似的公式；這常用於重積分的計算中。

1.2 雅可比行列式與神經網絡的關係

為什麼神經網絡會與雅可比行列式有關係？這裡我借用李宏毅老師的 ppt（12-14頁）。想看視頻的可以到 b 站上看。

簡單的來講就是，他們的分布之間的關係就變為，又因為有，所以這個網絡的雅可比行列式不為 0 才行。

順便提一下，flow-based Model 優化的損失函數如下：

其實這裡跟矩陣運算很像，矩陣可逆的條件也是矩陣的雅可比行列式不為 0，雅可比矩陣可以理解為矩陣的一階導數。

假設可逆網絡的表達式為：

它的雅可比矩陣為：

其行列式為 1。

1.3 可逆殘差網絡（Reversible Residual Network）

論文標題：The Reversible Residual Network: Backpropagation Without Storing Activations論文鏈接：https://arxiv.org/abs/1707.04585多倫多大學的 Aidan N.Gomez 和 Mengye Ren 提出了可逆殘差神經網絡，當前層的激活結果可由下一層的結果計算得出，也就是如果我們知道網絡層最後的結果，就可以反推前面每一層的中間結果。這樣我們只需要存儲網絡的參數和最後一層的結果即可，激活結果的存儲與網絡的深度無關了，將大幅減少顯存占用。令人驚訝的是，實驗結果顯示，可逆殘差網絡的表現並沒有顯著下降，與之前的標準殘差網絡實驗結果基本旗鼓相當。

1.3.1 可逆塊結構

可逆神經網絡將每一層分割成兩部分，分別為和，每一個可逆塊的輸入是，輸出是。其結構如下：

正向計算圖示：

公式表示：

逆向計算圖示：

公式表示：

其中 F 和 G 都是相似的殘差函數，參考上圖殘差網絡。可逆塊的跨距只能為 1，也就是說可逆塊必須一個接一個連接，中間不能採用其它網絡形式銜接，否則的話就會丟失信息，並且無法可逆計算了，這點與殘差塊不一樣。如果一定要採取跟殘差塊相似的結構，也就是中間一部分採用普通網絡形式銜接，那中間這部分的激活結果就必須顯式的存起來。

1.3.2 不用存儲激活結果的反向傳播

為了更好地計算反向傳播的步驟，我們修改一下上述正向計算和逆向計算的公式：

儘管和的值是相同的，但是兩個變量在圖中卻代表不同的節點，所以在反向傳播中它們的總體導數是不一樣的。的導數包含通過產生的間接影響，而的導數卻不受的任何影響。

在反向傳播計算流程中，先給出最後一層的激活值和誤差傳播的總體導數，然後要計算出其輸入值和對應的導數，以及殘差函數 F 和 G 中權重參數的總體導數，求解步驟如下：

1.3.3 計算開銷

一個 N 個連接的神經網絡，正向計算的理論加乘開銷為 N，反向傳播求導的理論加乘開銷為 2N（反向求導包含複合函數求導連乘），而可逆網絡多一步需要反向計算輸入值的操作，所以理論計算開銷為 4N，比普通網絡開銷約多出 33% 左右。但是在實際操作中，正向和反向的計算開銷在 GPU 上差不多，可以都理解為 N。那麼這樣的話，普通網絡的整體計算開銷為 2N，可逆網絡的整體開銷為 3N，也就是多出了約 50%。

1.3.4 雅可比行列式的計算

其編碼公式如下：

其解碼公式如下：

為了計算雅可比矩陣，我們更直觀的寫成下面的編碼公式：

它的雅可比矩陣為：

其實上面這個雅可比行列式也是 1，因為這裡，它們的係數是一樣的。

有另外一種解釋方式就是把這種對偶的形式切成兩半：

其行列式為 1。

因為是對偶的形式，所以這裡的行列式也為 1。

因為，所以其行列式也為 1。

反向傳播（BP）算法

上圖中符號的含義：

x1，x2，x3：表示 3 個輸入層節點。

：表示從 t-1 層到 t 層的權重參數，j 表示 t 層的第 j 個節點，i 表示 t-1 層的第 i 個節點。

：表示 t 層的第 i 個激活後輸出結果。

g(x)：表示激活函數。

正向傳播計算過程：

隱藏層（網絡的第二層）

輸出層（網絡的最後一層）

反向傳播計算過程：

以單個樣本為例，假設輸入向量是 [x1,x2,x3]，目標輸出值是 [y1,y2]，代價函數用 L 表示。反向傳播的總體原理就是根據總體輸出誤差，反向傳播回網絡，通過計算每一層節點的梯度，利用梯度下降法原理，更新每一層的網絡權重 w 和偏置 b，這也是網絡學習的過程。誤差反向傳播的優點就是可以把繁雜的導數計算以數列遞推的形式來表示，簡化了計算過程。

以平方誤差來計算反向傳播的過程，代價函數表示如下：