AI科技評論 - 苗旺：因果推斷，觀察性研究和 2021 年諾貝爾經濟學獎－鑽石舞台

因果推斷是當下人工智能、機器學習領域中的熱門話題之一。在 11 月 26 日的青源 Talk 中，北京大學助理教授、青源會會員苗旺分享了題為「因果推斷，觀察性研究和 2021 年諾貝爾經濟學獎」的報告。在本次報告中，苗旺老師首先介紹了 1989、2000、2021 三次諾貝爾經濟學獎的背景，這三次諾獎得主的工作都與因果推理有着密切的關聯。接着，苗旺老師回顧了統計學家對因果推理研究的貢獻。在報告的第三部分中，苗旺老師討論了以「混雜因素調整」為代表的觀察性數據因果推斷研究的最新進展。最後，苗旺老師展望了因果推斷未來的發展方向。

視頻回放鏈接：https://hub.baai.ac.cn/live/?room_id=189

主講丨苗旺

整理丨熊宇軒

審校丨李夢佳

1989、2000、2021 三次諾貝爾經濟學獎

2021年諾貝爾經濟學獎授予了 Card、Angrist、Imbens 三位經濟學家，以表彰他們在經濟學的實證研究和因果推斷方法方面的貢獻。其中，Card 因其在勞動經濟學（經濟學的分支之一，主要討論人的收入與勞動力市場的供給需求等問題）的實證研究中做出的重要的貢獻而獲獎。Angrist 和 Imbens 因其在基於因果關係分析的經濟學研究方法上做出的重要貢獻獲獎。上述三位獲獎人都在使用觀察性數據回答因果問題的方面做出了突出貢獻。我們認為，探索事物之間的因果關係和因果作用是很多科學研究的重要目的。

舉例而言，針對新冠病毒的傳播，我們關心應該通過怎樣的措施能夠阻斷或者延緩病毒的傳播，這是一個因果問題。在勞動經濟學領域中，有三個著名的百年難題：

（1）移民會對當地居民的就業和收入有何影響？

（2）設定最低工資標準，會不會造成更多人失業？

（3）對教育的投入能夠對收入有何影響？

觀察性研究

在人類文明過去的幾千年中，哲學家和思想家也一直關注因果問題，有很多創造性的深刻想法。科學家們則進一步在實踐中進行因果推斷，發現因果關係。「觀察性研究」是現代推斷因果作用的主要數據來源。不同於「試驗性研究」，我們在觀察性研究中無法根據人的意志干預試驗，無法採取有控制的實驗，無法隨機分配處理（treatment），只能根據經驗觀察推斷因果作用。

如上圖所示，觀察性研究往往涉及兩個具有挑戰性的問題：

（1）混雜因素（內生性）：忽略某些同時影響處理和結果的背景因素導致因果推斷的偏差和決策錯誤，甚至造成悖論

（2）選擇偏差/缺失數據：觀測數據不能代表我們關心的總體情況。

Simpson 悖論——混雜因素的作用

1975 年，統計學家 Bickel 在《Science》期刊上發表的論文討論了 1973 年伯克利研究生入學考試中是否存在性別歧視。從錄取的整體情況來看，男生、女生的錄取率分別為 44%、35%；而如果分專業來看，則每個專業錄取男生的比例都要低於或接近於女生的錄取率。出現這種矛盾的情況是因為我們忽略了混雜因素，即男生普遍選擇較容易錄取的專業。

Berkson 悖論——選擇偏差的作用

1946 年，統計學家 Berkson 曾針對醫院內住院的病人研究糖尿病和膽囊炎之間的關係，他發現這些病人患膽囊炎和患糖尿病呈現出很強的相關性。然而，這一結論在一般人群中是不成立的，這說明這種在醫院中選擇樣本的方式具有很強的選擇偏差。1978 年，Roberts 等人關於醫療服務的調查也為 Berkson 悖論提供了支持。

工具變量——處理混雜因素

1928 年，經濟學家 Wright 提出工具變量，用於處理混雜因素對因果推斷帶來的不利影響。工具變量需要滿足三個條件：（1）工具變量對我們關心的結果沒有直接的作用，只能通過我們關心的處理對結果產生影響（2）工具變量與未觀測到的混雜因素相互獨立（3）工具變量和我們關心的處理有一定的相關性。

舉例而言，如果我們關心教育對收入的因果作用，人的能力可能是很難測量的混雜因素。一些研究使用人的出生季度作為工具變量。首先，出生的季度與收入之間沒有直接的作用。但出生季度不同（如某一年的第一季度和第四季度出生）的人可能受教育的年限也有所不同。因此，出生季度與受教育年限有一定的相關性。此外，從自然界中整體的人群來看，出生季度是隨機的，它與家庭背景、個人能力等混雜變量獨立。此外，工具變量在生物信息、醫學等領域也被廣泛使用。然而，對於普遍的觀察性研究因果推斷問題而言，工具變量方法仍然具有一定的局限性，因為我們往往很確定到有效的工具變量，難以將該方法推廣開來。

為此，今年的諾貝爾獎獲得者 Card 與合作者使用一些自然試驗分析勞動經濟學中的一系列重要的因果問題。「自然試驗」指的是不受研究者控制的、自然發生的，或宏觀政策對研究的變量有類似於隨機化試驗影響的事件（例如：出生日期、基因突變、自然災害等）。自然試驗在勞動經濟學中的成功運用促使工具變量、重差法等方法稱為推斷因果作用的普遍範式。

1994 年，Card 和 Krueger 使用重差法研究了新澤西州最低工資的提升對就業的影響。在 1992 年 2 月，美國的新澤西州將最低工資標準從 4.25 提升至 5.05，而鄰近的賓夕法尼亞州並沒有提高最低工資標準。他們在平行趨勢假設（時間上和空間上的作用沒有交互）下調查了上述兩個周的 400 家快餐店在最低工資調整前後的就業情況，去除了混雜性，從而推斷出因果作用。如上圖所示，Y 表示就業人數，γ 表示空間影響，λ 表示時間影響，D 表示最低工資政策影響。

Angrist 和 Imbens 在工具變量的方法上做出了重要貢獻，他們將潛在結果模型和工具變量方法結合在了一起。

此前，一些經濟學家通常依靠結構方程模型使用工具變量來推斷因果作用。然而，結構方程模型對於刻畫因果關係需要的假定體現地十分隱晦，以至於人們很容易將其與表示相關關係的回歸模型混為一談，難以表示和驗證其中的因果假定。

為此，Bollen 和 Peral 在 2013 年發表了相關論文討論結構方程模型和回歸模型的異同。此外，LaLonde 於 1986 年發現，通過隨機化試驗和觀察性數據推算出的結果與使用結構方程推算出的因果作用差別很大，結構方程模型只有在設定正確的條件下才能推斷出因果關係，否則推斷出的參數沒有任何的因果意義。

統計學家提出使用潛在結果模型定義因果作用，該模型的表示能力更強，可以直接、清晰地定義因果作用、表述因果假定。1923 年，著名的統計學家 Neyman 在其博士論文中首次用數學語言表述了潛在結果模型。隨後，Rubin 在 1974 年將該模型推廣到了觀察性研究中。

如上圖所示，Y 表示我們關心的結果，X 表示處理，U 表示未觀測到的混雜因子。Y(x) 為潛在結果，即假設研究對象接收處理 x 後出現的結果，該情況可能與事實不同。此時，我們將因果作用定義為潛在結果的比較。

潛在結果模型可以直觀、簡潔地刻畫因果作用及其需要的假定。但是由於我們無法同時觀測到接受不同處理時的作用，存在數據缺失的現象，因此計算平均因果作用的統計推斷過程較為困難。

Angrist、Imbens 等人將工具變量與潛在結果模型結合，使用潛在結果模型刻畫工具變量假定和相應的統計模型，定義新的因果概念，發展了新的統計推斷方法。

一些經濟學家發現，使用工具變量計算出的處理對結果的作用有時比使用最小二乘法估計出的作用要大，而這種現象是難以解釋的。Angrist 和 Imbens 等人認為這種現象是因為研究的人群存在異質性，並提出了重要概念「Local average treatment effect」（LATE）。

這一概念與結構方程模型的假定類似：（1）工具變量隨機化的，獨立於混雜因素（2）工具變量對結果沒有直接的作用（3）工具變量與處理之間有強相關性（4）根據依從性將人群劃分為四類，假定不存在對抗者。在上述假設下，Angrist、Imbens 等人證明過去對工具變量的估計只能計算對依從者的作用。

在 2021 年諾貝爾經濟學獎之前，「計量經濟學之父」Haavelmo 於 1989 年獲得諾貝爾經濟學獎的工作與 Heckman 在 2000 年獲得諾貝爾經濟學獎的工作都與因果研究密切相關。

統計學家對因果推斷的貢獻

我們可以將因果研究大致分為以下三個層面：

（1）什麼是因果作用：經濟學家、統計學家、計算機科學家分別提出了結構方程模型、潛在結果模型、因果圖模型等方式來定義因果作用；

（2）如何推斷因果作用：包括隨機化試驗、可忽略性、敏感性分析、斷點回歸、工具變量、合成對照、近端推斷等方法；

（3）因果作用有什麼用：探索因果作用在制定策略、作出預測、討論最優處理方案，遷移學習等方面的應用價值。

因果作用的定義

Pearl 等人在 1998 年的一篇論文中指出，因果圖模型、結構方程模型、潛在結果模型在數學上是等價的，這三種模型的三套假定可以對應起來，以上三種模型之間可以相互表示。

因果作用的推斷

統計學家提出了一系列方法來推斷因果作用，例如：Fisher 等人於 1937 年提出了隨機性試驗方法；Rubin 和 Rosenbaum 於 1983 年提出了可忽略性概念；流行病學家 Greenland、統計學家 VanderWeele 和北京大學耿直老師在混雜因素的定義方面做出了突出貢獻；Pearl 等人提出了因果圖模型，並推動了因果結構學習的發展，北京大學耿直老師等人在這一方面提出了基於主動學習、遞歸、分解學習的方法；Robins 等人在複雜縱向時間變化的因果問題上做出了重要貢獻，提出了 A-learning 等方法。

在工具變量方面，Robins 等人於 1989 年提出使用工具變量，在不引入額外的假定下得到一個可以提供一定信息的界，Pearl 和 Balke 於 1997 年給出了最優的界；Angrist、Imbens、Rubin 等人提出了 LATE；Balke 和 Pearl 於 1997 年提出了工具變量不等式，可以在沒有額外信息的條件下，檢驗或發現工具變量的重要工具；北京大學耿直老師、VanderWeele 等人對代理悖論/工具變量悖論進行了討論。

觀察性研究中混雜因素調整的前沿進展

儘管工具變量的研究獲得了諾貝爾經濟學獎，但是在大數據時代，此類方法面臨着更多的挑戰。例如，在生物統計的基因研究中，我們會經常遇到弱工具變量和無效工具變量等問題。如上圖所示，Z 為表示基因變異的 SNPs，X 為基因表達，Y 為疾病。發生基因突變的位點在人所有的基因位點中只占一少部分，少數位點的突變可能對整體的基因表達的影響有限，此時 Z 和 X 的關係較弱。此外，基因突變可能具有多效性，上述原因都對因果作用的推斷造成了很大的影響。Pearl 在《為什麼》一書中也指出，如今大數據和人工智能技術蓬勃發展，但是混雜因素的問題還沒有很好解決，這一問題的解決將是因果革命對人工智能的一大貢獻。

近年來，研究人員提出了一系列新的混雜因素調整方法，包括：（1）基於分位數、不可分模型的新的工具變量方法（2）敏感性分析方法（3）合成對照（4）斷點回歸（5）代理推斷/陰性對照（6）考慮多個處理的混雜因素

代理推斷/陰性對照

苗旺老師認為，有些測量到的混雜因素/協變量存在一定誤差，我們可以將測量到的混雜因素為三類：（1）Z——與處理的混雜因素密切相關（2）W——與結果的混雜因素密切相關（3）C——與處理和結果的混雜因素都相關。在流行病學中，我們將 Z 稱為「negative control exposure」（NCE），將 W 稱為「negative control outcome」（NCO）。其中，Z 與 Y 不相關，它只能通過 X 對Ｙ產生作用；Ｗ與混雜因素相關，但它不受 X 和 Z 的影響。我們可以將 Z 看做對工具變量的推廣。

此外，在時間序列中，我們可以僅僅根據 X 和 Y 的觀測來構造陰性對照變量/代理變量來進行因果推斷。例如，我們關心的

為今天的空氣污染狀況，

為今天患病或死亡的人數，U 代表其它的未觀測到的混雜因素。如果我們將 Z 構造為明天的空氣污染情況，它顯然與今天的空氣污染有關係，但不會反過來影響今天患病的人數。在這種沒有反饋作用的情況下，我們可以很容易地構造出輔助的代理變量，僅僅用對 X 和 Y 的觀測就可以推斷因果作用，無需其它的輔助變量。

最近，苗旺老師將此類方法推廣到了複雜的縱向的研究中。其它的研究者也使用苗旺老師提出的代理推斷方法學習最優的處理方案。

苗旺老師團隊還將此類方法用到了合成對照中，討論如何使用代理推斷方法在沒有完美對照個體的情形下構造虛擬的對照。他們將其中的一些對照當做 NCE，將另外一些對照作為 NCO 來估計權重，然後對有缺陷的對照個體加權得到虛擬對照，採用這樣的虛擬對照能減少因果推斷的偏差。

缺失數據/選擇偏差方面的前沿工作

缺失機制是缺失數據研究中的重要概念，它由統計學家 Rubin 於1976年提出。缺失機制主要分為兩大類：

（1）隨機缺失——缺失狀態 Y 本身和缺失值沒有關係，缺失值僅僅依賴於完全觀測到的 X。

（2）非隨機缺失——缺失的值會影響缺失狀態，比如在工資調查、艾滋病調查中，由於隱私保護等原因，結果會影響人的響應狀態。

不可忽視的缺失數據分析

苗旺老師團隊在 2016 年發現一些常用的模型（例如，Logitstic Normal）在非隨機缺失的情況下，是不可識別的，我們無法根據觀測數據唯一確定想要推斷的參數。苗旺老師團隊進一步討論了常用的正態混合模型的識別性，以及半參數、非參數模型的識別性使用，使用面向缺失數據的工具變量、影子變量（Shadow variable）等方法討論識別性問題。

最近，苗旺老師團隊採用了現代調查匯總廣泛存在的「paradata」（調查並行數據）中的回調記錄（callback）來調整非隨機的缺失。這是因為現代調查的響應率越來越低，調查員需要多次進行回放，從而記錄下沒有響應的人。這種回調記錄對於處理缺失數據、調整不響應是非常關鍵的。

上圖展示了一個典型的現代調查的數據的結構。其中，X 變量是完全有響應的，但是存在許多沒有響應的結果 Y。我們可以根據回調數據識別和推斷關心的參數，調整不響應帶來的偏差。

因果推斷在其它領域的應用

除了混雜因素觀察性研究、缺失數據研究之外，因果推斷還與其它諸多研究領域相關，例如：（1）干涉作用，比如打疫苗對自己和周圍人群的保護作用有多大（2）中介分析和因果機制分析，這對於人工智能的可解釋性十分關鍵（3）個性化治療方案（4）數據融合。

比如說打疫苗不僅是對自己有保護作用，對周圍的人也有保護作用，對自己和對周圍人保護作用到底是有多大？這對於疫苗政策，我們人群當中到底是80%還是70%接種疫苗這個問題非常關鍵。

另外還有是關於因果機制的進一步的深入討論，中介分析和因果機制的分析，吸煙到底是怎麼影響肺癌的？是通過焦油還是通過尼古丁影響的？這在很多科學問題裡面是非常重要的，也對於人工智能的可解釋性也是很關鍵的，因果作用到底是怎麼樣產生的，這個機制是什麼？

此外現在個性化醫療關注的問題，最優的治療方案，個體化的治療方案的問題，以及現在我們在大數據時代，我們關於同一個因果問題，其實有很多研究的，怎麼樣把不同的研究結合在一起，去得到更好的因果推論，數據融合的問題，也是因果推斷在關心的。

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

數據融合

在數據融合方面，苗旺老師團隊近年來討論了如何在具有不同背景變量的數據集中進行因果推斷，以及如何將歷史上的對照數據與新的臨床試驗數據結合起來，進行因果推斷。

因果推斷和人工智能的研究

因果推斷與人工智能的結合是目前備受矚目的問題。Pearl 認為：要想製造真正的智能機器，就需要教會它們因果。Bengio和 LeCun 也指出：將因果與人工智能結合起來是十分重要的。具體而言，因果推斷的數據融合、對缺失數據的研究與遷移學習、領域遷移、半監督學習相關；動態處理方案與強化學習相關；個體化治療與機器學習中的分類問題十分相似；半參數統計和「double debiased」機器學習也有一定的聯繫。但是，目前因果推斷研究和機器學習研究之間仍然存在巨大的鴻溝。

結語

Haavelmo、Heckman、Card、Angrist、Imbens 等人推動了經濟學中的因果推斷研究，鼓舞着我們繼續發展因果推斷。在工具變量研究和因果推斷的整個領域中，統計學家做出了全方位、首屈一指的貢獻。在大數據和人工智能時代，統計學家的貢獻會越來越被認可和重視。混雜因素和缺失數據仍然是因果推斷和觀察性研究領域的重點問題。因果推斷和機器學習、人工智能的研究有一些可以結合的地方，需要繼續加大研究，強強結合，使其在更多的領域中為社會民生做出更重要的貢獻。

鑽石舞台

鑽石鑽石亮晶晶

AI科技評論 - 苗旺：因果推斷，觀察性研究和 2021 年諾貝爾經濟學獎

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣