picture from Internet
本文是針對論文《參與或不參與人工智能進行批判性判斷:專家在使用人工智能進行醫學診斷時如何處理不透明性(To Engage or Not to Engage with AI for Critical Judgments: How Professionals Deal with Opacity When Using AI for Medical Diagnosis)》的一篇論文解析。該論文於2022年1月發表於《組織科學(Organization Science)》雜誌上,作者包括Sarah Lebovitz, Hila Lifshitz-Assaf, Natalia Levina。
研究簡介
人工智能(Artificial Intelligence,AI)技術有望在解決問題、感知和推理方面不斷改進,成為一種基本的組織變革推動力,特別是在知識工作(Knowledge Work)領域。對於AI代替人工輸入還是讓人類專家「增強」AI,私人和公共組織越來越多地選擇後者,並假設可以通過協同整合人工智能和專家各自提供的專業知識產生價值。這篇論文通過調查專業人員如何使用AI工具形成三種不同的醫學診斷判斷,研究如何在實踐中展開用於關鍵決策的人類AI增強。
組織領域的合作整合包含了轉移知識,這個過程既需要理解他人輸入背後的含義,又需要願意改變自己的初始立場。而在知識工作中,由於專家不總是能夠解釋自己的推理,且其合作者可能不願意聽取不熟悉的觀點,因此實現協作很困難。在無法獲得其背後推理的情況下,專家對跨專業知識基礎的理解和對替代觀點持開放態度方面都可能存在問題。因此,當人類面臨由人工智能工具表達的不同觀點時,可能會出現所謂的「不透明人工智能(Opacity AI)」問題,尤其是深度學習算法這樣的「黑箱」。
這篇論文通過對美國一家利用人工智能輔助放射診斷的大型三級醫院進行民族志實地研究(Ethnographic Field Study),探索使用AI工具的專家如何處理不透明性,是否根據AI輸入改變他們的初始知識主張。在對肺癌、乳腺癌和骨齡的診斷中,只有肺癌診斷中專家使用AI會增強他們本身的專業性,這種案例被稱為參與增強(Engaged Augmentation)。這一案例中專家能夠將AI結果與初步判斷聯繫起來,並制定「AI問責實踐(AI Interrogation Practices)」來協調不同的知識主張(Knowledge Claims),這需要專業人員進行大量資源投資。
背景理論
使用AI增強專業知識
AI使用有自動化和增強化兩類場景,這篇論文關注增強的場景,學術上將其稱為人類-AI增強,即「結合互補優勢」並「成倍增加能力」,通過專業知識的擴展,人類-AI增強有望通過卓越性能或提高的效率對組織產生積極影響。不同人類專家的有效合作要求合作者願意並且能夠理解他人輸入背後的含義,並可能改變自己的知識主張。有效整合不同知識的合作會導致個人不僅「增加」而且「挑戰」彼此的輸入,這與僅僅「忽略」輸入而不進行反思不同。而當合作者無法問責對方的知識主張時,轉移知識是一項挑戰。過去的組織研究關注知識工作者如何處理隱性知識,但對處理現代技術的不透明性知之甚少。
不透明度和AI技術
不透明性是指給定結果背後的推理被模糊或隱藏時,結果變得難以理解。透明度悖論認為儘管信息技術的使用可能增加信息的可見性,但在某些情況下實際上可能會降低透明度。專注於技術的透明度、道德和公平性問題的研究社區主要關注三個領域。第一,第一個領域探討算法模型的設計如何更加透明,以幫助解決公平和社會正義(Social Justice)問題。第二,算法透明度和專業問責制(Professional Accountability)之間的關係。將AI工具引入專業工作環境可能會改變現有的責任分配和問責制,但無法提供查看或理解底層邏輯的能力,不透明度對新形式的算法管理和控制的影響也提出了相關問題。第三,對透明度的類型和來源進行分類和表徵,與人工智能系統相關的不透明度。
然而,在人類人工智能增強的現代背景下,專家被期望「協作」和轉移知識,但沒有檢查或評估人工智能知識主張的實際能力。因此,這篇論文關註:專家在使用AI工具形成批判性判斷時如何體驗和處理不透明度?
通過知識工作的社會物質實踐調查人工智能在使用中的不透明度
論文在理論上關注AI所涉及的知識工作的社會物質性實踐(Sociomaterial Practices of Knowledge Work)。論文採用關係本體論,強調了技術和參與者的不可分割,並且通過特定社會和歷史背景下的實踐不斷地(重新)生產彼此。論文在案例中圍繞人工智能和不透明性的「分類辯論」轉變為個人和技術共同行動的「實踐的實證調查」。因此,論文將不透明度視為通過特定組織配置中的實踐產生和制定的東西。使用這個視角,論文研究當專家在使用AI形成判斷時,如何體驗和處理AI使用中的不透明度。
研究方法和結果
研究場景
論文在美國一個主要城市的教學醫院Urbanside的一個大型放射診斷組織的三個不同部門內進行了深入的實地研究。診斷放射學是一個專門的醫學領域,其中分析醫學成像以診斷和治療疾病,幾十年來它一直處於採用尖端技術(人工智能和非人工智能)的前沿。論文按照對技術、工作和組織進行實地研究的傳統設計研究,調查同一組織內的三個放射科,加深對專家使用AI工具工作的調查。
數據收集
從2018年底開始,作者及其合作者全身心投入診斷放射學領域,參加專業會議、專題討論會和供應商活動,以了解專業領域的機遇和挑戰。民族志實地工作於2019年1月開始,研究了三個部門積極使用人工智能工具的40名放射科醫師,涵蓋了乳房成像、胸部成像和兒科成像。
(1)觀察
本研究的主要數據來源是十個月(超過500小時)的民族志觀察,書面觀察記錄中記錄了超過1000例放射科醫師形成診斷的案例。捕捉放射科醫師口頭表達診斷推理、借鑑過去經驗和研究、描述常見錯誤和避免錯誤策略等,並密切關注正在使用的技術,捕捉工具在診斷過程中的作用、產生的結果等。在實地工作中觀察到涉及和不涉及AI工具的診斷案例,觀察不涉及AI工具的案例加強了對放射科醫生分析實踐的理解。
(2)訪談
通過33次半結構化訪談豐富了觀察數據。21次非正式訪談涉及的問題包括近期患者病例診斷的不清楚方面、與同事或患者的互動,或使用或不使用技術的特定時刻。12次正式訪談問題包括成為放射科醫生的意義、如何進行診斷工作、對各種技術的看法等方面的理解。
(3)文檔和工件
論文還收集了放射科醫生在日常工作中製作和使用的工件(artifacts),包括他們參考的醫學筆記和照片或醫學圖像的圖畫。此外,還整理了技術研究論文、監管文件和供應商文件,以研究三個重點AI工具及其輸出的性質。
數據分析
根據紮根理論的原則,論文在整個數據收集過程中進行了迭代的數據分析。在早期階段,我們進行了開放編碼以捕捉廣泛的新興主題。儘管所有放射科醫生都在「使用」人工智能工具(在形成初步判斷後單擊以顯示其結果),但AI結果影響放射科醫生最終判斷的程度不同(例如,「暫停考慮AI結果」、「更新原始診斷」或「快速忽略AI結果」)。人工智能結果和放射科醫師的意見經常出現分歧,深入分析使我們將他們的挫敗感與對產生給定AI結果的原因缺乏理解聯繫起來(例如,「質疑AI在看什麼」或「猜測AI輸出背後的因素」)。且只有診斷肺癌的放射科醫生會定期結合人工智能結果,而其他放射科醫生大多忽略了這些工具的結果。
接下來,論文分析不同模式背後的原因並逐步繪製了放射科醫師如何形成每種不同類型的診斷,並從多個維度分析其過程,例如診斷的哪些方面引起懷疑、如何分析證據、對人工智能工具及其結果的看法等。進一步的分析使我們關注放射科醫生如何使用所謂的「AI問責實踐」整合(或不整合)人工智能結果的關鍵差異。通過查閱有關認識不確定性和不透明性的文獻來加強我們的分析,進一步促進了形式理論的發展。
研究發現
使用AI工具進行肺癌診斷
(1)形成批判性判斷(沒有AI):經歷高度不確定性
經歷三類不確定性:從健康肺組織中辨別「肺結節」(Lung Nodules)、辨別每一個肺結節、確定每個結節的惡性可能性(likelihood of malignancy)。
(2)體驗AI使用中的不透明性(以及增加的不確定性)
當AI結果證實了他們先前不確定的不存在結節的評估時,放射科醫生表示高興和寬慰。而在大多數情況下,AI工具的結果與放射科醫生最初的觀點不同,放射科醫生開始感到不透明,因為他們無法理解AI結果。他們質疑潛在肺組織的哪些特徵與該AI工具的決定相關。放射科醫生致力於提供具有最大確定性的判斷,但考慮到他們在考慮不同的AI結果時所經歷的不透明性,他們表示難以確定。
(3)處理AI不透明性:制定AI問責實踐並納入AI結果
制定人工智能問責實踐涉及建立對AI結果的理解,然後協調不同觀點。放射科醫生檢查和探索AI結果,以了解它們並最終將與自己的觀點相結合。即使放射科醫生決定否決AI結果,他們報告最終診斷的信心也更高。實施AI問責實踐需要放射科醫生投入額外的時間和分析,反映了他們對人工智能結果價值的積極看法。對AI結果的問責和整合已經成為這些專家如何形成最終判斷的關鍵步驟。
使用AI工具進行乳腺癌診斷
(1)形成批判性判斷(沒有AI):經歷高度不確定性
主要的不確定性來自:識別複雜乳腺組織解剖結構中的異常區域、描述每個異常是惡性還是良性的可能性。
(2)體驗AI使用中的不透明性(以及增加的不確定性)
和進行肺癌診斷的發現基本一致。AI工具的結果與放射科醫生最初的觀點不同,放射科醫生感到不透明,因為他們無法理解這些不同的AI結果。
(3)處理AI不透明性:不執行AI問責實踐,不納入AI結果
在這個部門,放射科醫師沒有實施AI問責實踐,也沒有定期將AI結果納入最終判斷。相反,當面對不同的意見時,放射科醫生傾向於在忽略之前以敷衍方式審查AI結果背後的圖像。面臨極端不確定性和巨大時間壓力,當他們不得不調和工具的(經常)不同意見時,這種壓力會突然成倍增加。
使用AI工具進行骨齡診斷
(1)形成批判性判斷(AI):經歷較低不確定性
與前兩個專業不同,兒科放射科醫生將這種評估視為一項簡單的比較任務,並沒有遇到特別高的不確定性。
(2)體驗AI使用中的不透明性(以及增加的不確定性)
在查看AI結果時,放射科醫生突然經歷了新一輪的不確定性,其根源在於他們無法理解或解釋AI結果。在大約三分之一的案例中,人工智能工具的骨齡與他們的初步判斷大致一致。然而,在大多數情況下,骨齡意見產生分歧,放射科醫生面臨不確定性。缺乏理解或檢查工具結果的能力讓放射科醫生感到沮喪。特別是,他們對AI工具如何以遠高於他們能力的精度水平進行骨齡測量感到困惑。例如,兒科放射科醫生使用一年增量標準報告骨齡結果,但人工智能工具使用年和月的組合(例如,「6年4個月」)報告了更精細的結果。
(3)處理AI不透明性:不執行AI問責實踐,不納入AI結果
最終在觀察到的案例中,兒科放射科醫生沒有制定AI問責實踐,因此很少將AI結果納入最終判斷。
討論
結果總結
這項研究揭示了專業知識工作者在形成批判性判斷時如何體驗和處理使用中的人工智能的不透明性的過程。在所有三個部門中,專家首先形成初始知識主張,然後考慮AI知識主張,這經常與其初始主張發生衝突。專家都經歷使用AI的不透明性,因為他們不了解給定AI結果的潛在推理,這反過來又增加了他們對不確定性的體驗。
這三個部門在轉化自己知識方面存在不同的模式。儘管使用AI不透明(診斷肺癌時),但只有一個科室始終如一地整合AI結果,而其他兩個科室的專家沒有整合AI結果(診斷乳腺癌和骨齡時)。經過仔細分析,發現專家制定「AI問責實踐」以將他們自己的知識主張與人工智能的知識主張聯繫起來是至關重要的。實施AI問責實踐使專家能夠調和這兩種知識主張(通過否決AI主張、反思性地同意它或協同綜合這些主張)並減少其整體不確定性。由於不透明,沒有制定此類做法的專家難以將AI結果納入其中,因此,他們通過盲目接受或忽略AI聲明來形成他們的最終判斷。我們將人類AI使用的這些路徑區分為參與式增強和非參與式增強。
圖1 專家使用AI工具做批判性判斷
理論和實踐意義
(1)AI使用的不透明度和AI問責實踐的重要性
論文闡明了一條專家通過制定AI問責實踐來處理使用AI時不透明度的路徑。可解釋的AI可能會啟用但不能保證專家能夠整合AI知識(即參與增強)。論文還揭示使用AI時的不透明度與不確定性之間的重要關係。研究結果的適用條件,與專家做出需要知識整合和轉換的關鍵決策的環境相關。且研究涉及需要參與增強的環境,而不是專家即使在不透明的情況下也可能服從AI結果的環境。
(2)挑戰公認的增強概念
研究結果挑戰了將增強與協作視為理所當然的等效性。相反,論文建議將參與增強與未參與增強區分開。在參與增強中,專家將AI知識主張與自己的相結合,這既需要建立對AI主張的理解,也需要根據AI主張轉變自己知識的能力和意願。而非參與增強大多是盲目地接受或盲目地忽略人工智能的結果。從知識和學習的角度來看,AI工具的不透明性可以被視為抑制了對知識工作者的完整反饋和反思周期。當專家無法分析AI決策背後的推理時,他們會錯過學習過程。
參考文獻:Lebovitz, S., Lifshitz-Assaf, H., & Levina, N. (2022). To engage or not to engage with AI for critical judgments: How professionals deal with opacity when using AI for medical diagnosis. Organization Science. 33(1), 1-23.
專欄推薦
本推文來自《唧唧堂人工智能主題論文導讀專欄》。專欄已收錄導讀論文7篇,未來收錄論文數無上限,1年內至少更新50篇,歡迎訂閱!
點擊「閱讀原文」發現更多未推送管理學論文導讀!