PaperWeekly - 生成擴散模型漫談：最優擴散方差估計（上）－鑽石舞台

Sep 26 Mon 2022 13:00
PaperWeekly - 生成擴散模型漫談：最優擴散方差估計（上）

©PaperWeekly 原創 ·作者 | 蘇劍林

單位 | 追一科技

研究方向 | NLP、神經網絡

對於生成擴散模型來說，一個很關鍵的問題是生成過程的方差應該怎麼選擇，因為不同的方差會明顯影響生成效果。

在《生成擴散模型漫談：DDPM = 自回歸式 VAE》我們提到，DDPM 分別假設數據服從兩種特殊分布推出了兩個可用的結果；《生成擴散模型漫談：DDIM = 高觀點DDPM》中的 DDIM 則調整了生成過程，將方差變為超參數，甚至允許零方差生成，但方差為 0 的 DDIM 的生成效果普遍差於方差非 0 的 DDPM；而《生成擴散模型漫談：一般框架之 SDE 篇》顯示前、反向 SDE 的方差應該是一致的，但這原則上在時才成立；《Improved Denoising Diffusion Probabilistic Models》則提出將它視為可訓練參數來學習，但會增加訓練難度。

所以，生成過程的方差究竟該怎麼設置呢？今年的兩篇論文《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》和《Estimating the Optimal Covariance with Imperfect Mean in Diffusion Probabilistic Models》算是給這個問題提供了比較完美的答案。接下來我們一起欣賞一下它們的結果。

不確定性

事實上，這兩篇論文出自同一團隊，作者也基本相同。第一篇論文（簡稱 Analytic-DPM）下面簡稱在 DDIM 的基礎上，推導了無條件方差的一個解析解；第二篇論文（簡稱 Extended-Analytic-DPM）則弱化了第一篇論文的假設，並提出了有條件方差的優化方法。本文首先介紹第一篇論文的結果。

在《生成擴散模型漫談：DDIM = 高觀點 DDPM》中，我們推導了對於給定的，對應的的一般解為

其中，就是可調的標準差參數。在 DDIM 中，接下來的處理流程是：用來估計，然後認為

然而，從貝葉斯的角度來看，這個處理是非常不妥的，因為從預測不可能完全準確，它帶有一定的不確定性，因此我們應該用概率分布而非確定性的函數來描述它。事實上，嚴格地有

精確的通常是沒法獲得的，但這裡只要一個粗糙的近似，因此我們用正態分布去逼近它（如何逼近我們稍後再討論）。有了這個近似分布後，我們可以寫出：

其中。可以看到，更加接近均值為、協方差為的正態分布，其中均值跟以往的結果是一致的，不同的是方差多出了這一項，因此即便，對應的方差也不為0。多出來的這一項，就是第一篇論文所提的最優方差的修正項。

均值優化

現在我們來討論如何用去逼近真實的，說白了就是求出的均值和協方差。

對於均值來說，它依賴於，所以需要一個模型來擬合它，而訓練模型就需要損失函數。利用

我們得到

這就是訓練所用的損失函數。如果像之前一樣引入參數化

就可以得到 DDPM 訓練所用的損失函數形式了。關於均值優化的結果是跟以往一致的，沒有什麼改動。

方差估計1

類似地，根據定義，協方差矩陣應該是

其中可以是任意常向量，這對應於協方差的平移不變性。

上式估計的是完整的協方差矩陣，但並不是我們想要的，因為目前我們是想要用去逼近，其中設計的協方差矩陣為，它有兩個特點：

1、跟無關：為了消除對的依賴，我們對全體求平均，即；

2、單位陣的倍數：這意味着我們只用考慮對角線部分，並且對對角線元素取平均，即，其中。

於是我們有

這是筆者給出的關於的一個解析形式，在完成訓練的情況下，可以通過採樣一批和來近似計算上式。

特別地，如果取，那麼剛好可以寫成

這裡的是全體訓練數據的像素級方差。如果的每個像素值都在區間內，那麼它的方差顯然不會超過，從而有不等式

方差估計2

剛才的解是筆者給出的、認為比較直觀的一個解，Analytic-DPM 原論文則給出了一個略有不同的解，但筆者認為相對來說沒那麼直觀。通過代入式（7），我們可以得到：

此時如果兩端對求平均，我們有

別忘了，所以實際上就是的均值，那麼實際上是在求的均值的協方差矩陣，結果顯然就是，所以

那麼

兩邊取跡然後處以，得到

這就得到了另一個估計和上界，這就是 Analytic-DPM 的原始結果。

實驗結果

原論文的實驗結果顯示，Analytic-DPM 所做的方差修正，主要在生成擴散步數較少時會有比較明顯的提升，所以它對擴散模型的加速比較有意義：

▲Analytic-DPM 主要在擴散步數較少時會有比較明顯的效果提升

筆者也在之前自己實現的代碼上嘗試了Analytic-DPM 的修正，參考代碼為：

Github：

https://github.com/bojone/Keras-DDPM/blob/main/adpm.py

當擴散步數為 10 時，DDPM 與 Analytic-DDPM 的效果對比如下圖：

▲ DDPM 在擴散步數為 10 時的生成結果

▲Analytic-DDPM 在擴散步數為 10 時的生成結果

可以看到，在擴散步數較小時，DDPM 的生成效果比較光滑，有點「重度磨皮」的感覺，相比之下 Analytic-DDPM 的結果顯得更真實一些，但是也帶來了額外的噪點。從評價指標來說，Analytic-DDPM 要更好一些。

吹毛求疵

至此，我們已經完成了 Analytic-DPM 的介紹，推導過程略帶有一些技巧性，但不算太複雜，至少思路上還是很明朗的。如果讀者覺得還是很難懂，那不妨再去看看原論文在附錄中用 7 頁紙、13 個引理完成的推導，想必看到之後就覺得本文的推導是多麼友好了哈哈～

誠然，從首先得到這個方差的解析解來說，我為原作者們的洞察力而折服，但不得不說的是，從「事後諸葛亮」的角度來說，Analytic-DPM 在推導和結果上都走了一些的「彎路」，顯得「太繞」、」太巧「，從而感覺不到什麼啟發性。其中，一個最明顯的特點是，原論文的結果都用了來表達，這就帶來了三個問題：一來使得推導過程特別不直觀，難以理解「怎麼想到的」；二來要求讀者額外了解得分匹配的相關結果，增加了理解難度；最後落到實踐時，又要用回或來表示，多繞一道。

本文推導的出發點是，我們是在估計正態分布的參數，對於正態分布來說，矩估計與最大似然估計相同，因此直接去估算相應的均值方差即可。結果上，沒必要強行在形式上去跟、得分匹配對齊，因為很明顯 Analytic-DPM 的 baseline 模型是 DDIM，DDIM 本身就沒有以得分匹配為出發點，增加與得分匹配的聯繫，於理論和實驗都無益。直接跟或對齊，形式上更加直觀，而且更容易跟實驗形式進行轉換。