人類對於某人是黑人、亞洲人還是白人的判斷主要來自於某些外貌特徵:皮膚、頭髮、眼睛這類外在體徵,但是,如果僅從一個人的胸部X光片、肢體CT掃描和乳房X光片等影像資料,就能判斷出他/她的種族,你相信嗎?當然不,畢竟連最專業的醫學影像專家都無法識別。不過最近,根據麻省理工學院的一項研究,經過訓練的人工智能可以有效識別這些沒有被標註的X光片的主人,到底是黑人、黃種人還是白人,準確率達到90%以上,即使這些圖像是損壞、裁剪和噪聲的醫學影像,而這一點通常是臨床專家無法做到的。並且,研究者們強調,這一識別結果不是由於某些已知與族裔相關的身體特徵關聯導致的(例如通過體重指數 [AUC 0·55]、疾病分布 [0·61] 和乳房密度 [ 0·61]等等)。這一研究結果目前發布在《柳葉刀數字健康(Lancet Digit Health)》上。AI能通過胸片識別患者種族?「我以為我的學生瘋了」AI模型在醫學影像識別領域的能力早已有目共睹,但是麻省理工這一研究之所以引發了極大的關注,一方面是由於其高精度識別率背後的原因仍是個「黑盒」,另一方面,研究者們也不得不擔憂,人工智能是否早已經將「種族偏見」融入了人類從未想到的方方面面。在麻省理工的這一研究中,研究者們了使用私人(Emory CXR、Emory 胸部 CT、Emory 頸椎和 Emory 乳房 X 線照片)和公共(MIMIC-CXR、CheXpert、國家肺癌篩查試驗、RSNA 肺栓塞 CT 和數字手部圖譜)數據集。該團隊發現被訓練過的人工智能可以僅從這些醫學圖像中,高準確率地預測患者自我報告的種族。利用胸部 X 光片、肢體 X 光片、胸部 CT 掃描和乳房 X 光片的成像數據,該團隊訓練了一個深度學習模型來識別圖像的主人是白人、黑人還是亞洲人——儘管這些圖像本身並沒有明確提及病人的種族。目前,即使是最有經驗的醫生也無法做到這一點,並且也尚不清楚該模型是如何做到的。「當我的研究生向我展示這篇論文中的一些結果時,我認為這肯定是一個錯誤,」麻省理工學院電氣工程和計算機科學助理教授、該論文的合著者Marzyeh Ghassemi說,「我真的以為我的學生瘋了。」為了梳理和弄清這一切的神奇的識別系統是如何實現的,研究人員進行了一系列實驗。為了研究種族檢測的可能機制,他們研究了諸如解剖結構差異、骨密度、圖像分辨率等變量。但是,拋開這些變量後,AI仍然具有通過胸部 X 光檢測種族的高能力。該團隊嘗試了很多方式,試圖解釋AI是如何識別的:不同種族群體之間身體特徵的差異(體質、乳房密度)、疾病分布(之前的研究表明,黑人患者患心臟病等健康問題的幾率更高) )、特定位置或特定組織的差異、社會偏見和環境壓力的影響、深度學習系統在多種人口統計和患者因素結合時檢測種族的能力,以及特定圖像區域是否有助於識別種族。例如,骨密度測試使用的圖像中,骨較厚的部分呈白色,較薄的部分呈灰色或半透明。科學家們認為,由於黑人通常具有較高的骨礦物質密度,因此顏色差異有助於人工智能模型檢測種族。為了切斷這一點,他們用過濾器調整了圖像,這樣模型就不會出現顏色差異。事實證明,調整影像顏色並沒有擾亂模型——它仍然可以準確地預測種族。(「曲線下面積」值,即定量診斷測試準確性的衡量標準,為 0.94–0.96)。因此,模型的學習特徵似乎依賴於圖像的區域。「這些結果最初令人困惑,因為我們研究團隊無法為這項任務找到一個好的解釋,」Marzyeh Ghassemi 表示,「即使將這些醫學圖像調整到已經不能被稱為醫學圖像的樣子,深度模型的識別正確率仍能保持非常高的性能。」算法的錯誤訓練會導致偏見,這一點毋庸置疑,而當人工智能反映了產生這些算法的人類的無意識思想、種族主義和偏見時,它可能會導致嚴重的傷害。「這令人擔憂,因為AI超人的能力通常更難以控制、規範和防止傷害他人。」在臨床環境中,算法識別可以幫助醫生判斷患者是否適合化療,決定患者的分類,或決定是否需要轉入 ICU。「我們認為算法只關注生命體徵或實驗室測試,但這一研究結果表明,它們也有可能關注你的種族、民族、性別,即使所有這些信息都被隱藏了,」論文合著者、麻省理工學院 IMES 首席研究科學家、哈佛醫學院醫學副教授 Leo Anthony Celi 說。「僅僅因為你的算法中有不同群體的代表,這並不能保證它不會延續或放大現有的差異和不平等。為算法提供更多具有代表性的數據並不是萬能的。以往在其他領域的相關案例數不勝數,例如,計算機程序錯誤地標記了黑人被告再次犯罪的可能性是白人被告的兩倍。當人工智能使用成本作為健康需求的判斷因素時,它會將黑人患者識別為比同樣患病的白人患者更健康,這樣可以使得花在他們身上的錢更少。自然語言處理中存在偏見的例子是無窮無盡的,甚至 AI 過去寫劇本也依賴於使用有害的刻板印象來進行選角。但麻省理工學院的科學家們的研究發現了另一種重要的、很大程度上未被充分探索的模式:醫學圖像。值得注意的是,Ghassemi 和 Celi 的其他研究成果還發現,模型還可以從臨床記錄中識別患者自我報告的種族,即使這些記錄被刪去了明確的種族指標,而人類專家也無法從相同的臨床記錄編輯中準確預測患者種族。「我們需要讓社會科學家參與進來,只有是臨床醫生、公共衛生從業者、計算機科學家和工程師是不夠的。醫療保健是一個社會文化問題,就像它是一個醫學問題一樣。我們需要另一組專家來權衡並就我們如何設計、開發、部署和評估這些算法提供意見和反饋,」Celi 說。「我們還需要詢問數據科學家,在對數據進行任何探索之前,是否存在差異?哪些患者群體被邊緣化?這些差異的驅動因素是什麼?是否可以獲得護理?是來自護理提供者的主觀性嗎?如果我們不理解這一點,我們將沒有機會識別算法肯帶來的意外後果。」「正如研究所展示,算法『看到種族的事實可能很危險。但一個重要且相關的事實是,如果謹慎使用,算法也可以消除偏見,」加州大學伯克利分校副教授 Ziad Obermeyer 說,他的研究重點是人工智能應用於健康。「在我們自己的工作中,我們也發現從患者疼痛經歷中學習的算法可以在 X 射線中發現新的膝關節疼痛源,這些源頭對黑人患者的影響尤其嚴重,而放射科醫師也嚴重忽視了這些原因。因此,就像任何工具一樣,算法既可以是邪惡的力量,也可以是善良的力量——這取決於我們,以及我們在構建算法時所做的選擇。」https://news.mit.edu/2022/artificial-intelligence-predicts-patients-race-from-medical-images-0520
https://pubmed.ncbi.nlm.nih.gov/35568690/