©作者 |肖之儀
單位 |北京郵電大學
研究方向 |因果推理、對話系統

2.Causality for NLP Reading List
3.Causal Reading Group
因果工具
1.DoWhy: An end-to-end library for causal inference
4.CausalNex: A Python library that helps data scientists to infer causation rather than observing correlation.
5.CausalImpact: An R package for causal inference in time series
6.CausalDiscoveryToolbox: Package for causal inference in graphs and in the pairwise settings. Tools for graph structure recovery and dependencies are included.
e-CARE: a New Dataset for Exploring Explainable Causal Reasoning
數據集示例:

綜述類文章
A Review of Dataset and Labeling Methods for Causality Extraction
同時作者也總結了在英文語境相下具有因果關係的連接詞,如下表所示:
▲ Summary of common causal connectives in English
Causal Inference in Natural Language Processing: Estimation, Prediction, Interpretation and Beyond
文獻概述如下:
在NLP任務建模種融合因果關係
Uncovering Main Causalities for Long-tailed Information Extraction (EMNLP 2021)
信息抽取旨在從非結構化的文本中提取出結構化的信息。在實際場景下,數據集由選擇偏移帶來的長尾分布可能會使得模型習得一些可疑的關聯關係。
本文獻提出的 CFIE 擬解決上述問題,具體貢獻如下:
1. 對多種信息抽取任務(RE,NER 和 ED )構建統一的結構因果模型(structural causal model)並描述不同變量之間的因果關係;
2. 基於上述的結構因果模型,使用相應的語言結構生成反事實樣本,以此在推理階段更好的計算直接因果效應(direct causal effect);
3. 文獻進一步提出一種消除偏倚的方法以提供更具魯棒性的預測。
▲ Training and inference stages of CFIE for ED
▲ Causal effect estimation
CFIE 的模型設計如上圖所示,分成如下五個步驟:
Counterfactual Generator: A Weakly-Supervised Method for Named Entity Recognition(EMNLP 2020)
1. 基於因果關係的視角描述了 NER 模型推斷機制的理論基礎,研究了模型輸入特徵與輸出標籤之間存在的可疑的關聯關係;
▲ Structural Causal Models (SCMs) that describes the mechanism of the NER model inference.
作者為 NER 模型的推理機制構建了相應的 SCM 並以 DAG 的形式可視化,其中結點 G 表示混雜因子——既影響了實體結點 E的同時也影響了上下文結點 C,結點 X 則代表了由結點 E 和 C 所生成的輸入實例,結點 Y 是 NER 模型的評估指標,如 F1 值。
作者通過平均因果效應 ACE(Average Causal Effect)來評估干預後的 treatment effect,值得注意的是上圖中的 (b) 與 (c) 分別表示對上下文和實體進行干預,作者設計了一個新的評估指標—— RI(Relative Importance)來評估上下文和實體的表示對於 NER 模型推理階段的重要性,在後續的實驗分析模塊,作者得出的結論是實體的表示對 NER 模型的推理更重要。
1. 從已有的本地數據中抽出實體集合;
2. 從實體集合中選取與待干預樣本實體相同類別的實體進行替換從而生成反事實樣本;
3. 通過使用原始數據訓練的辨別器(discriminator)分辨新生成的反事實樣本是否合理,若合理則將該樣本加入到已有數據集內。
Counterfactual Off-Policy Training for Neural Dialogue Generation (EMNLP 2020)
1. 以「結構因果模型」對「對話生成模型」建模,從而在「對話生成模型」中融合「反事實推理」;
2. 論文中提出的模型所生成的反事實回應相較於其他標準的基於對抗學習從頭開始生成的回應的質量要高得多;
3. 論文提出的方法與模型無關(model-agnostic),因此可以適配與任何基於對抗學習的對話生成模型。
▲ An example of generated responses given dialogue history between person A and B.
文中提出的「counterfactual off-policy training (COPT) approach」步驟如下:
1. 構造生成式對話模型的 SCM,將其描述為兩個組成部分即——場景(scenarios)和因果機制(causal mechanisms);
2. 給出觀測回複數據中推斷的場景,COPT 將場景(scenario)以及對話歷史(dialogue history)根據 SCM 生成相應的反事實回復;
3. 判別器評估生成的語句,並將相應的 reward 返還給第二步的生成器。
▲An example of an SCM and an intervention.
Identifying Spurious Correlations for Robust Text Classification (EMNLP Findings2020)

▲Motivating example of spurious and genuine correlations in a sentiment classification task.
在上圖中,作者展示了八個與模型高度匹配的詞彙,其中類別 1 代表正向情感,類別 2 則表示負向情感。
不難發現,在正向情感方面,「spielberg」與「animated」看上去較為可疑,作者認為「spielberg」是一名非常成功的電影導演,在數據集中提及到他的電影評論往往是正向的,因此模型認為「spielberg」與正向情感強相關,但作者認為「spielberg」這個單詞本身不應當是電影評論被判定為正向情感的原因,舉個很簡單的例子,倘若有一天導演拍攝了一部新片但口碑卻不盡如人意,含有這類可疑的關聯關係的模型則會誤判評論。
因此,本文提出了一個監督文本分類方法旨在認出文本分類中的偽相關性和真相關性,文章提出的方法如下:
1. 用原始數據集訓練分類器 f;
2. 從分類器 f 中提取出與每個類別強相關的若干個詞彙;
3. 對前序步驟提取出來的每個詞彙計算其真實或可疑的可能值;
4. 對第二步產生詞彙的子集進行人工標註,並訓練成詞彙分類器 h;
5. 應用 h 標註剩餘的單詞去評估他們是否可疑。
對語言模型進行因果分析
Causal Analysis of Syntactic Agreement Mechanisms in Neural Language Models(ACL2021)
作者想應用因果中介分析(causal mediation analysis)來觀察預訓練語言模型在「主謂一致」上的表現,探討對不同的語法結構來說,語言模型中的的哪個神經元負責判斷判斷「主謂一致」。
Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis (NAACL2021)
▲An example of generated causal graph for the charge fraud.
因果推理可以捕捉不同變量之間的因果關係,大多數現有工作專注於解決結構化數據,而從非結構化數據中挖掘因果關係則鮮少有學者涉足,本文獻提出了一個全新的基於圖的因果推斷框架 CGI(Graph-based Causal Inference)——不用人為介入即可通過事實描述構造因果圖,以此輔助法律從業者作出更好的判斷。
文獻通過「近似指控消歧」(similar charge disambiguation)任務來評估框架的性能,實驗結果驗證 GCI 不僅能夠在多個近似指控的事實描述中捕捉細微差別,而且能提供解釋性判決,在小樣本的實驗環境下 CGI 的表現優異。除此之外, CGI 中所包含的因果知識能夠有效地與神經網絡相結合,以此提供更好的性能和可解釋性。
1. 文獻提出了一個新的基於圖的因果推斷框架,可以自動地對非結構化數據進行因果推斷;
2. 文獻將 GCI 框架所得出的因果知識與神經網絡相結合;
3. 文獻通過「近似指控消岐」任務驗證了 CGI 能從法律文本中捕捉到細微差別,且它能夠進一步提升神經網絡的可解釋性。
▲ Overall architecture of GCI.
▲Two ways of integrating causal analysis and neural networks.
文獻通過兩種方式將因果發現的結果應用至神經網絡,第一種是將因果強度限制 Attention 的權重,第二種將有向無環圖拆解成若干因果鏈並作為 LSTM 的輸入。
因果常識推理及其生成
Guided Generation of Cause and Effect(IJCAI2020)
論文作出如下貢獻:
1. 提出了開放式因果生成的任務:對任意格式的文本生產出其可能的原因與結果;
2. 構造了因果數據集 CausalBank,其包含有 3.14 億個因果對(cause-effect pairs);
3. 拓展了詞法限制的解碼(lexically-constrained decoding),使其支持析取正向約束(disjunctive positive constraints)。
GLUCOSE: GeneraLized and COntextualized Story Explanations(EMNLP2020)
文獻介紹了 GLUCOSE 數據集,當給出一則短故事和故事中的一個句子 X,GLUCOSE 從十個維度會捕捉與 X 相關的因果解釋。
這十個維度啟發於人類認知心理學,覆蓋了 X 通常隱含的原因和結果,如:事件、地點、所有物等等。
▲Entries in the GLUCOSE dataset that explain the Gage story around the sentence X= Gage turned his bike sharply.
Counterfactual Story Reasoning and Generation(EMNLP2019)
在文獻中,作者提出了一個新的任務,即基於故事理解和生成的反事實故事重寫(Counterfactual Story Rewriting)。
舉個例子,如下圖所示,左側提供了原始故事版本,Pierre 喜歡萬聖節,想要在萬聖節扮演吸血鬼,因此他準備了相應的打扮,但假設 Pierre 想要扮演的是狼人,通過反事實推理,我們知道接下里的故事內容要於狼人相符。
▲Data annotation process for the TIMETRAVEL dataset.

參考文獻

[1]A Review of dataset and labeling methods for causality extractionhttps://aclanthology.org/2020.coling-main.133/
[2] Causal Inference in Natural Language Processing: Estimation, Prediction, Interpretation and Beyondhttps://arxiv.org/abs/2109.00725
[3] Uncovering Main Causalities for Long-tailed Information Extractionhttps://arxiv.org/abs/2109.05213
[4] Counterfactual Generator: A Weakly-Supervised Method for Named Entity Recognitionhttps://aclanthology.org/2020.emnlp-main.590/#
[5] Counterfactual Off-Policy Training for Neural Dialogue Generationhttps://aclanthology.org/2020.emnlp-main.276/
[6] Identifying Spurious Correlations for Robust Text Classificationhttps://arxiv.org/pdf/2010.02458.pdf
[7] Seeing Stars: Exploiting Class Relationships for Sentiment Categorization with Respect to Rating Scaleshttps://aclanthology.org/P05-1015/
[8] Causal Analysis of Syntactic Agreement Mechanisms in Neural Language Modelshttps://arxiv.org/abs/2106.06087
[9] Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysishttps://arxiv.org/abs/2104.09420
[10] Yakehttps://github.com/LIAAD/yake
[11] Guided Generation of Cause and Effecthttps://www.ijcai.org/Proceedings/2020/0502.pdf
[12] GLUCOSE: GeneraLized and COntextualized Story Explanationshttps://arxiv.org/pdf/2009.07758.pdf
[13] Counterfactual Story Reasoning and Generationhttps://arxiv.org/pdf/1909.04076.pdf
更多閱讀

#投 稿通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平台已發表或待發表的文章,請明確標註
• 稿件建議以markdown格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬投稿通道:
• 投稿郵箱:hr@paperweekly.site
• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者
• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧