close


©作者 |Zicon

單位 |廣東工業大學

研究方向 |因果推斷


本文中各類 forest-based methods 主要從 split 和 predict 兩個角度展開,忽略漸進高斯性等理論推導。



Random Forest

傳統隨機森林由多棵決策樹構成,每棵決策樹在第 i 次 split 的時候,分裂準則如下(這裡關注回歸樹):


其中 表示在 的劃分情況下, 所在的葉子結點。隨機森林構建完成後,給定測試數據 ,預測值為:


Causal Forest類似地,因果森林由多棵因果樹構成,由於需要 Honest estimation(用互不重合的數據 分別進行 split 和 estimate),因此相較於決策樹,每棵因果樹 split 的分裂準則修改如下:

其中:

在葉子結點內可以認為所有樣本同質,所以因果森林構建完成後,給定測試數據 ,其預測值為:


Generalized Random Forest
廣義隨機森林可以看作是對隨機森林進行了推廣:原來隨機森林只能估計觀測目標值 ,現在廣義隨機森林可以估計任何感興趣的指標 。
3.1predict

先假設我們在已經有一棵訓練好的廣義隨機森林,現在關注給定測試數據,如何預測我們感興趣的指標?

通過公式 (2) 和 (3),傳統隨機森林預測的做法是:

1. 在單棵樹中,將測試數據 所在葉子結點的觀測目標值取平均作為該樹對 的預測;
2. 在多棵樹中,將單棵樹的不同預測結果取平均作為最終的預測結果。
而在廣義隨機森林中,首先基於因果森林得到各數據 相對於測試數據 的權重 ,之後加權求解局部估計等式,具體地:
權重估計階段:將數據 與測試數據 在同一葉子結點中的「共現頻率」作為其權重,如下:

加權求解局部估計等式階段:下式中 表示我們感興趣的參數, 表示我們不感興趣但必須估計的參數, 表示觀測到的與我們感興趣的參數相關的值。


在 predict 階段,我們可以證明,隨機森林恰好是廣義隨機森林的一個特例,證明如下:
首先,在隨機森林的 setting 下,,我們感興趣的參數恰好是 ;
極大似然函數為 ,其 score function 為 ;
因此公式 (11) 為:

因此有 ,可得:



3.2split
首先,由於廣義隨機森林的目標是準確估計感興趣的參數 ,因此針對單一節點 與一組樣數據 ,估計參數 的方法是:

接着,我們要將節點 P 分裂為兩個子節點 ,分裂的目標是極小化感興趣的參數的誤差:
但是實際上 是不可見的,經過一番推導,最終可以發現最小化 等價於最大化下面的公式:
也就是說,最小化感興趣的參數的誤差等價於最大化兩個子節點的異質性。
如果每個 都通過求解式 (12) 獲得,那算法的計算複雜度非常高,因此可以通過 gradient-based 的方法去得到 的近似解:
至此,我們可以將 split 分成兩個階段:
標記階段:計算父節點的 ,之後針對每個樣本計算虛擬的目標值:

回歸階段:分裂準則為最大化式 (14):
在 split 階段,也可以證明隨機森林是廣義隨機森林的一個特例:
首先,在隨機森林的 setting 下,score function 為 ;
此時:

3.3局部估計等式

在廣義隨機森林中,假設下列的數據產生過程:


這裡 ,有:


此時相當於:

帶上權重 的時候類似。

3.4other

causal forest 和 generalized random forest 的分裂準則其實是等價的,只不過式 (4) 考慮了下式的 b 和 c 兩部分,式 (13)/(15) 只考慮了 b 部分:


Orthogonal Random Forest

orthogonal random forest 只是在 generalized random forest 的基礎上進行了兩個改動:
加了 DML:在一開始先擬合 ,得到殘差(first stage);再對殘差跑 generalized random forest(second stage)。與廣義隨機森林的 score function (16) 相比,正交隨機森林的 score function 的定義如下:

此時相當於:

帶上權重 的時候類似:
在 predict 階段強調 locally,即擬合 的時候(DML 的 first stage)使用上權重 。

TO DO

記錄一個還沒想明白的問題,路過的大佬有懂的歡迎討論。

到這裡我們可以發現一個節點內的數據的 HTE 有兩種計算方式:
一種是如式 (8) 所示,直接計算不同 treatment 組的期望相減,即 ;
另外一種是求解式 (12) 的局部估計等式。
在隨機森林假設的線性 treatment effect 的情況下,這兩種計算本質上是等價的。那為什麼式 (13) 中的 不能直接用第一種方式求,而是要大費周章地用梯度去近似呢?
目前的結論:上述等價性成立的前提是線性 effect 和二元 treatments 假設,第二種計算方式可以推廣到多元甚至連續 treatments。

參考文獻


[1] Athey S, Imbens G. Recursive partitioning for heterogeneous causal effects[J]. Proceedings of the National Academy of Sciences, 2016, 113(27): 7353-7360.

[2] Wager S, Athey S. Estimation and inference of heterogeneous treatment effects using random forests[J]. Journal of the American Statistical Association, 2018, 113(523): 1228-1242.

[3] Athey S, Tibshirani J, Wager S. Generalized random forests[J]. The Annals of Statistics, 2019, 47(2): 1148-1178.

[4] Oprescu M, Syrgkanis V, Wu Z S. Orthogonal random forest for causal inference[C]//International Conference on Machine Learning. PMLR, 2019: 4932-4941.



更多閱讀





#投 稿通 道#

讓你的文字被更多人看到




如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝稿件基本要求:

• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平台已發表或待發表的文章,請明確標註

• 稿件建議以markdown格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬投稿通道:

• 投稿郵箱:hr@paperweekly.site

• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者

• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧


·




arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()