機器之心 - 做時間序列預測有必要用深度學習嗎？事實證明，梯度提升回歸樹媲美甚至超越多個DNN模型－鑽石舞台

機器之心報道

編輯：杜偉、陳萍

在深度學習方法應用廣泛的今天，所有領域是不是非它不可呢？其實未必，在時間序列預測任務上，簡單的機器學習方法能夠媲美甚至超越很多 DNN 模型。

過去幾年，時間序列領域的經典參數方法（自回歸）已經在很大程度上被複雜的深度學習框架（如 DeepGIO 或 LSTNet 等）更新替代。這是因為傳統方法可能無法捕獲長期和短期序列混合傳遞的信息，而深度學習方法的思路是掌握數據中的跨時非線性依賴。從結果來看，這些深度學習方法不僅優於 ARIMA 等傳統方法和梯度提升回歸樹（Gradient Boosting Regression Tree, GBRT）等簡單機器學習模型，而且增強了這樣一種預期，即機器學習領域的時間序列預測模型需要以深度學習工作為基礎，才能得到 SOTA 結果。

但是，推薦系列領域的最新啟示表明，深度學習方法在機器學習各種研究分支取得的成就需要對簡單高效模型定期確認和評估，以保持各自研究領域進展的真實性。除了時間序列預測模型越來越複雜之外，另一個動機包括文獻中正在完善的深度學習模型在處理時間序列預測問題上的片面性，因此限制了現有解決方案方法的多樣性。

在前段時間的一篇論文《Do We Really Need Deep Learning Models for Time Series Forecasting?》中，來自德國希爾德斯海姆大學計算機科學系的研究者展示了通過精心配置的輸入處理結構，GBRT 等簡單但強大的集成模型在時間序列預測領域能夠媲美甚至超越很多 DNN 模型。

論文地址：https://arxiv.org/pdf/2101.02118.pdf

研究者對特徵工程多輸出 GBRT 模型進行了評估，並提出了以下兩個研究問題：

對於用於時間序列預測的基於窗口的學習框架來說，精心配置 GBRT 模型的輸入和輸出結構有什麼效果？

一個雖簡單但配置良好的 GBRT 模型與 SOTA 深度學習時間序列預測框架相比如何？

為了回答這兩個問題，研究者選擇了雙重實驗設置，分別解決兩類預測任務，即系統化方式中的單變量和多變量預測。目的是評估 GBRT 模型以及在頂會（NeurIPS、KDD、SIGIR、ECML、ICML、CIKM、IJCAI、ICLR 等）中出現的 SOTA 深度學習方法。這項研究的整體貢獻可以總結如下：

一，研究者將一個簡單的機器學習方法 GBRT 提升了競品 DNN 時間序列預測模型的標準。首先將 GBRT 轉換成一個基於窗口的回歸框架，接着對它的輸入和輸出結構進行特徵工程，如此便能從額外上下文信息中獲益最多；

二，為了突出輸入處理對時間序列預測模型的重要性，研究者通過實證證明了為什麼基於窗口的 GBRT 輸入設置可以在時間序列預測領域提高 ARIMA 和原版 GBRT 等精心配置的模型所產生的預測性能；

三，研究者比較了 GBRT 與各種 SOTA 深度學習時間序列預測模型的性能，並驗證了它在單變量和雙變量時間序列預測任務中的競爭力。

這項研究也引起了不少人的共鳴。有人認為，時間序列分類任務同樣也沒有必要用深度學習方法。在一些情況下，SVMs 或邏輯回歸方法表現更好，速度也更快。

研究設計

選擇基線。研究者系統地過濾了 2016 年至 2020 年在 NeurIPS、KDD、SIGIR、SDM、ECML、ICML、CIKM、IJCAI、ICLR 等會議表現較好的論文集。論文需滿足以下要求：

主題：只考慮時間序列預測領域的研究；

數據結構：專用數據類型，但如異步時間序列和概念化為圖形的數據被排除在外；

可復現：數據、源代碼應公開。如果源代碼不可用，但實驗設置有清晰的文檔，研究也可以從實驗中複製結果；

計算的可行性：研究中得出的結果能夠以易於處理的方式復現，並在合理的時間內可計算。

評估。該研究在兩個層次上對時間序列預測 GBRT 模型進行評估：一個單變量和一個多變量。為了使所選的深度學習基線和 GBRT 之間具有顯著的可比性，該研究在相同的數據集上評估了所有模型，數據集如下表 1 所示：左邊提供了關於用來評估模型數據集，而右邊則列出了各自的實驗規範：

問題公式化。時間序列預測問題，就監督學習而言，時間序列預測可以表述為：給定一個集合

和一個集合

，經過一系列假設後，得到如下期望損失最小化模型：

GBRT

GBRT 模型，特別是 XGBoost 實現，其優點是易於應用，而且在結構化數據上特別成功。但是當涉及時間序列預測的初始（naive）實現時，GBRT 模型失去了很大一部分靈活性，因為它們沒有被投射到基於窗口的回歸問題中，而是被配置為適合大部分時間序列作為完整且連續的數據點序列來預測時間序列的後續和剩餘測試部分。

與上述初始實現不同，該研究通過將時間序列重新配置為窗口輸入，並在多個訓練實例（窗口）上進行訓練，以模擬成功的時間序列預測模型中使用的輸入處理行為，為此該研究定義了一個可調窗口，

。這種基於窗口的 GBRT 模型輸入設置如圖 1 所示：

第一步是使用變換函數

將典型的 2D 訓練實例（時間序列輸入窗口）變換為適合 GBRT 的 1D 形狀向量（扁平窗口）。該函數將所有 w 實例的目標值 y_i 連接起來，然後將最後一個時間點實例 t 的協變量向量附加到輸入窗口 w 中，表示為

。

基於窗口的 GBRT 輸入設置極大地提高了其預測性能，因為 GBRT 模型現在能夠掌握數據的底層時間序列結構，並且現在可以被認為是先進 DNN 時間序列預測模型的適當機器學習基線。另一方面，簡單配置的 GBRT 模型

是一個簡單的逐點回歸模型，將時間點

的協變量作為輸入，預測單一目標值 Y_i、j 為同一時間點訓練損失如下：

實驗結果

單變量時間序列的結果

下表 2 總體結果表明，除了 traffic 預測外，基於窗口的 GBRT 具有較強的競爭力。另一方面，具有傳統配置的預測模型（例如 ARIMA 和 GBRT（Naive））的表現遠遠優於預期。

而在 electricity 預測方面，基於窗口的 GBRT 在所有模型中均顯示出最佳的 RMSE 性能，其在 WAPE 和 MAE 方面的性能僅優於 2016 年推出的 TRMF，基於注意力的 DARNN 模型表現較差。關於 exchange rate 任務，LSTNet（以 w = 24 重新實現）和 TMRF 顯示出相當強的結果，優於基於窗口的 GBRT 基線。

在不考慮時間預測器的情況下，traffic 預測的結果是混合的，因此 DARNN 和 LSTNet 實現了 traffic 數據集的最佳結果，而對於 PeMSD7 數據集，基於窗口的 GBRT 基線在兩個方面優於 DNN 模型三個指標。然而，時間協變量的包含顯着提高了 GBRT 的性能（下表 3），因此，對於 traffic 預測，所有 DNN 方法，包括 DeepGlo [18] 和 STGCN（spatio-temporal traffic forecasting model ） [19]，其在 PeMSD7 上實現了 6.77 的 RMSE，優於重新配置的 GBRT 基線。

下表 4 顯示了 LSTNet 與 GBRT(W-b) 的結果：

下表 5 中的結果表明 GBRT 的競爭力，但也表明基於 transformer 的模型相當強大，例如 TFT 超過了提升回歸樹性能。然而，作為一個例外，TFT 構成了本研究中唯一一個始終優於 GBRT 的 DNN 模型，而 DeepAR 和 DeepState 等概率模型在這些單變量數據集上的表現優於其他模型。