close


分享嘉賓:蔣錦鵬 醫渡雲 首席架構師

編輯整理:杜家樂 北京中醫藥大學

出品平台:DataFunTalk


導讀:隱私保護計算是很新的一個技術方向,原理是什麼,為什麼需要它,如何在醫學科研的垂直場景下去應用?今天的分享能夠讓大家有初步的認識。

本文的主要內容會圍繞以下幾點展開:

背景與挑戰

隱私保護計算技術-數據可用不可見

醫學多中心科研對安全計算的需求特點

醫渡雲多方安全計算解決方案

01
背景與挑戰

首先需要理解實現數據的可用不可見為什麼這麼重要。

1.健康醫療需要更好的數據融合應用與數據科研價值挖掘

第一、現代醫學循證科研需要基於數據,單中心或單家醫院的科研數據往往不能滿足高質量臨床科研的需求。單中心符合某特定的納排條件患者總量的樣本可能非常少,只有充足的樣本量才能做出高質量的研究。

第二、數據的多樣性和代表性的問題。不同的環境和生活習慣,使得疾病的特徵分布也可能不同,多中心的研究有助於增強研究成果的泛化能力。

第三、有一些非臨床的數據,如說像隨訪死因、體檢、可穿戴設備、生活習慣等數據,如何依法合規的將其融合起來治理,支撐科研也是重要的問題。

2.合法合規的解決數據孤島難題已經是行業挑戰

對於跨院的多中心數據治理,在醫學的多中心科研的場景下,存在着非常嚴重的數據孤島問題。

一方面、院間的數據融合治理需要複雜的協作和審批流程,這種數據整合往往不是原始信息系統的數據由機器自動去整合,而是通過大量人工錄入,導致耗時長,效率低,有安全隱患,且數據加工這個過程環路不完整,缺少監控,難以溯源。這已成為制約多中心開展科研的重要瓶頸。

另一方面,數據安全合規問題需要嚴肅應對,醫療數據涉及患者健康隱私,非常敏感。世界各國也在相繼出台各種數據安全,隱私保護相關的法律法規,我國也正式通過《數據安全法》,《個人信息保護法》,這兩部法律今年9月1號和11月1號將要正式生效實施,未來的立法和相關行業監管的規定會越來越細緻和嚴格。

02
隱私保護計算技術-數據可用不可見

如何在數據安全,合規和數據科研價值挖掘之間找到比較好的一個平衡點,這就引出一個關鍵的進術,就是隱私保護計算技術。

通過它能夠實現在醫療科研場景下數據的可用不可見。

隱私保護計算,國內也簡稱隱私計算技術,它是最近幾年興起的一個新概念,我們認為它是一系列能夠實現數據可用不可見的技術的一個總稱,或者代稱相關的理論研究。

這個技術其實由來已久,最早1978年密碼學Rivest就提出同態加密的思想,1979年Shamir就是RSA里的R和S提出秘密分享的技術,在80年代,我國的姚期智提出多方安全計算的概念,提出姚式混淆電路是一種通用的多方安全計算的一個解決方案,也就是說實現數據可用不可見的多方安全計算。

這個理論被不斷的完善,然後又有不經意傳輸、零知識證明等技術被提出,但是基於密碼學的技術流派,計算複雜度是很高,計算的性能往往較差,因為上個世紀計算機的性能較現在差很多,在很長的一段時間之內,它都停留在理論研究的階段。

在2000年以後,出於應用上的需求,又開始開闢新的思路,如差分隱私,簡單說像原始數據去可控的加入噪聲,讓個體的隱私得到保護,同時對最終的計算結果影響可控。另外一條路是2013年英特爾提出了基於SGX的可信執行環境技術,在硬件層面提供了一種數據可用不可見的機制,在2016年,Google把分布式機器學習拓展到隱私保護領域,提出了聯邦學習的概念,最開始是用大量的手機終端來訓練輸入法的模型,後來融合聯邦學習和密碼學,安全性進一步得到一定的提升。

近幾年,以楊強教授為代表的學術界和工業界的專家,旨在把水平的聯邦學習拓展到縱向的聯邦學習和遷移學習,進一步去拓展它的適用範圍。

技術上,醫渡雲目前選擇的是融合多方安全計算和聯邦學習作為底層的隱私保護計算的支撐。這兩項技術在安全性和正確性上有比較可靠的理論支撐,且不依賴於第三方廠商,非常好的契合醫學科研領域常用的統計分析和建模的需求。

具體來看,多方安全計算和聯邦學習的原理是什麼樣的?

其實基本思想非常簡單。

如基於秘密分享的多方安全計算,它的基本思想就是把原始的數據分成隨機的碎片,從單個或部分的碎片不能恢復原始信息,打碎之後的分片分發給各個參與方,各自進行計算,最終再按照特定的協議把計算後的碎片組合起來,保證計算的結果和最開始把數據集中起來算是一致的。

舉一個最簡單的加法的秘密分享的例子:

如Alice和Charlie,Bob三人想要計算平均收入,假設他們的收入是1000,2000和1500,但是他們都不想讓其他人知道自己的收入。

把它各自把各自的收入數據打碎,隨機拆成一些數字,然後再把這些碎片分發出去,數字總和沒變,所以他們求和仍然不變,各自求和之後,再到中心去匯總,仍然可以得到一個正確的結果。整個過程,沒有暴露各自收入信息。

這個就是基於秘密分享的安全多方計算基本原理。實際過程中分享乘法的秘密會更加複雜。

機器學習涉及到大量數據的計算,使用多方安全計算相關的技術,理論上可行,但實際上性能開銷很大,難以落地,但可以針對機器學習場景專門設計一些算法。

這裡有一個非常經典的比喻:羊吃草。

把機學習模型比作羊,把數據比作草。傳統機器學習從各個場地收集草,集中餵養,但這樣,各家醫院數據就被泄露。聯邦學習就是反過來,讓草不動,讓羊到處去吃草,各個醫院的原始的數據安全性得到保障。

最近兩三年,在需求和國家政策的支持引導下,隱私保護計算相關的技術和產業發展非常快。根據信通院的調研的報告,目前國內已經有40多家廠商參與到隱私保護計算相關的技術和產品的研發。

截止去年年底,大約有45個相關產品面世,從今年上半年就增加了14個新的產品,在行業上,主要是在金融,互聯網的行業應用,醫渡雲走得比較靠前,今年也有很多正式的大型項目在招標,建設;在醫療和政府的行業,醫渡雲也在積極地開展各種試點的工作;國際知名研究機構Gartner也把隱私增強計算列為2021年的九大重要戰略的科技趨勢。

隱私計算在醫療行業的應用快速推進的過程中,有代表性和里程碑意義的工作是在今年五月底,在《Nature》雜誌主刊發表了一篇封面的文章,是歐洲多家研究機構和企業共同實現的一項隱私計算在醫學科研領域的一個應用。

歐洲非常重視個人數據隱私保護,GDPR的法規非常嚴格,如何在歐洲合規高效的開展多中心的醫學科研是一個難題,這篇文章作者把聯邦學習做了去中心化改進,並結合區塊鏈稱為learning,可看作更廣義上的聯邦學習,或者說隱私保護計算。本篇文章在白血病肺結核新冠肺炎這樣的一些疾病研究數據上做了試點,驗證了可行性,得到國際同行權威的認可。

03

醫學多中心科研對安全計算的需求特點

醫渡雲發現,在醫療領域,和其他的金融互聯網等行業相比,其需求有很多差異。現階段,還沒有一個通用的解決方案能夠直接去無縫的對接到各行各業的應用場景里解決所有問題。

1.醫療領域-數據需求更嚴苛

醫療場景里,數據涉及到患者的隱私敏感度是更高的,數據的擁有方——醫院對於數據不出院的要求非常強烈。

一些解決方案為了避免節點間通信的性能的開銷問題,會設置中心化的計算節點的沙箱,這種方案在醫療行業里很難行執行。

醫渡雲的方案採用分布式架構,數據嚴格不出醫院。

2.醫療領域-計算需求更複雜

首先,醫學多中心科研需要基於大量高質量標準化醫學數據,模型非常複雜。常用醫學科研數據涉及到幾百張表,幾千個字段,散布於醫院各種信息系統。數據標準不統一,需要進行數據治理。

醫渡雲醫療大數據積累了一套完整的標準的疾病數據治理解決方案,目前已經給全國500多家醫療機構提供了相關的這種平台和服務,擁有非常豐富的經驗。

其次,在醫療領域,科研領域的計算需求複雜,科研的過程中,往往需要去不斷的去嘗試idea,驗證idea,涉及到複雜的本地計算和安全計算,以交替的方式去組合進行。

如需要反覆調整納排醫學條件,做安全的聚合計算,再做統計的時候,先要做本地的局部統計,然後再做全局的安全的聚合統計,在這方面醫渡雲已經抽象出一套通用的計算框架,可以去靈活的組合本地的計算和跨院的安全計算。

最後,醫學的科研場景下,只有聯邦學習是不夠的。

在醫學科研這個場景下,經常會做各種字段的描述性的統計分析,相關性的分析,假設檢驗,顯著性的分析,執行區間等;包括機器學習的建模也有其特點,如醫學科研會使用較多CS生存分析的線路,這些模型在一般的聯邦學習的算法里沒有默認支持,醫渡雲對醫學科研領域常用的統計分析和機器學習建模相關的20多種算法,做了安全計算改造,基本覆蓋了常見科研場景。

另外,跨院之間的網絡條件一般較差,無法給所有參與科研的醫院之間兩兩去拉專線,且各家醫院算力資源分布不均衡,可能出現整個系統被短板拖累現象。

針對這些問題,醫渡雲一方面搭建跨院安全互聯的通道,在多方安全計算和聯邦學習的調度算法和通信算法方面進行針對性的優化保障,使得弱網環境下依舊能夠高效穩定工作。

04

醫渡雲多方安全計算解決方案

醫渡雲提供了三種不同的解決方案。

第一種模式是國家臨床研究中心NCRC的平台,一些場景,如醫聯體的場景下,中心醫院控制能力很強,可以從分中心把數據集中在一起使用,是最方便的。

第二個模式是多方安全計算的平台方案,適用於各家研究中心互相之間沒有比較強勢的一個中心方,在真實世界是大多數情況,怎樣去用隱私計算的技術實現數據可用不可見,仍然能夠去做科研。

第三種模式是Saas多中心科研的協作平台,適用於醫生之間做一些輕量級的科研寫作的需求。

下圖為醫渡雲多方安全計算平台的解決方案的架構:

整個解決方案分為平台端和醫院端兩端。

在醫院端,通過數據治理,把多源異構的醫療數據,轉換成統一格式的高質量的數據,這是醫渡雲傳統的科研平台做的工作。接下來醫渡雲在各家醫院去部署隱私計算的節點,這些節點之間去通過互相的協作,在保證數據不出院的情況下完成多方計算。

在平台端,包含一套隱私計算的應用層框架和一個科研應用平台,隱私計算的應用框架,對各家醫院的隱私計算的節點進行統一的管理和協調,對多方安全計算的任務進行統一調度,以及對所有的操作進行基於區塊鏈的審計和存證,最終用戶客戶直接使用應用層的科研平台去開展多中心的科研工作。和以往的單中心科研相比,核心區別就是它看不到原始的數據,它只能看到統計性的數據。

下圖醫渡雲技術層的一個架構圖。

右下角是醫渡雲醫學數據治理的能力,通過數據集成數據的結構化,標準化和質控,把不可計算的低質量的非結構化的數據變成統一的,可計算的高質量的數據。

在左欄底層是隱私保護的一些基礎技術,包括同態加密,秘密分享,不經意傳輸等,基礎之上,醫渡雲做了隱私保護計算的應用層的中間層的框架Yidu MANDA,既包括使用多方安全計算支持的聯合統計,隱私集合求交,匿蹤查詢功能,也包括聯邦學習的技術,支撐特徵工程、邏輯回歸、生存分析等算法,還有一部分是和區塊鏈結合,保障醫渡雲對於數據的授權和使用的過程,是留痕的可溯源可審計的,提高安全合規。

基於框架之上,上方是醫學科研產品進行深度的整合來支撐上層的臨床的研究可行性分析,大樣本的隊列,研究疾病模型的建模等不同的應用場景。

下圖是醫渡雲自研的安全計算引擎Yidu MANDA的架構圖。

它採用分布式的架構中心,有協調節點對計算任務進行統一調度,各家醫院通過安全加密進行安全通信和計算,但中心節點是看不到中間傳輸的醫院之間傳輸的任何信息的,原始的數據也絕對不會離開醫院。在醫院端這塊,醫渡雲做了抽象的設計,通過manager和各種院內的業務系統做對接,能夠很方便地把原有的單中心的業務系統,通過這套框架升級成基於多方安全計算的多中心的業務系統。

在計算任務的調度方面,醫渡雲也會去自動的把計算任務拆分成本地計算和多方安全計算優化執行的開發,儘量在本地計算,當只有必須做跨院計算的時候,才會使用到多方面計算。可以去更大程度地降低多方安全計算對於性能的影響。

在安全性方面,醫渡雲做了很多工作,如目前使用的基於秘密分享的Shamir算法。

這就是說參與方可能對他人數據好奇,想了解原始數據,如果有參與方試圖破解,Shamir算法會給出錯誤的結果。

醫渡雲使用了更先進的標準版的秘密分享的算法,它基於可驗證的秘密共享的假設,在分享碎片的數據的同時會發送可驗證的數據的字段,安全性更高,一方面可以保證惡意節點小於t個時,參與方無法破解原始信息;另外一方面可抵禦參與方去破壞,如果參與方發送的錯誤的數據分片故意去破壞,這種情況下,協議可自動檢測出來,醫渡雲多方安全計算和聯邦學習相關的技術和產品也已經通過信通院的專業的測評,得到了專業的認證。

醫渡雲和信通院以及相關的一些同行,一起去編制多方安全計算,隱私保護,計算相關的白皮書等標準的制定。

醫渡雲也在和一些知名高校,科研機構開展系列的相關的合作研究,如今年醫渡雲和清華大學啟動了一項聯合研究,包括針對聯邦學習的性能優化,以及區塊鏈在多方安全計算中的應用、存證和溯源。

結合業務場景的需求,醫渡雲做了大量優化工作,讓安全計算可以運行得更加順暢。

首先、醫渡雲通過自研的多方面計算引擎對MPC的通信進行了優化,以往的MPC計算需要兩兩節點之間的通信,隨節點數量增多通信開銷呈指數增長,通過優化可以降低到常數級。

其次、醫渡雲支持多通道技術,在多方安全計算的框架上,底層的通用的框架可以跑不同的應用,同時運行多個研究項目,讓任務並行開展,保證隔離,也可對優先級和資源進行控制。

最後、醫渡雲對底層的安全計算的機制進行了抽象,形成插件化的架構,客戶可根據安全性和性能方面的需要,在秘密分享同在加密和可信執行環境等不同的底層多方安全計算技術之間進行切換。

05
應用案例

案例1:

醫渡雲聯合三家醫院對急性白血病患者血幹細胞移植手術後一年內復發風險進行了建模預測。

首先建立對白血病的專病庫,先做納排,通過是否是急性,有無HCT造血幹細胞移植的手術,術後的死亡情況,隨診記錄等信息篩選,過濾研究目標人群,計算在醫院本地完成,

其次、提取像人口學診斷分型,各種檢驗檢查的指標,免疫抗原的指標,以及基因型基因檢測的結果,以及它移植供體方面的等特徵,並且基於多方安全計算對特徵值進行像缺失值分布、相關性、主成分析的分析和處理。

最終、用聯邦學習算法做建模,得到的AUC值和集中XGB訓練的效果比較接近,比單家醫院訓練出來的模型效果效果顯著,更好,具有更好的泛化的能力。

急性的白血病發病比較急,它的病因和發病機理其實很複雜,而且愈後是很不好。這樣的研究對於急性白血病的輔助治療會很有意義。

案例2:

醫渡雲聯合七家醫院進行真實世界的前列腺癌的早期診斷的多中心的回顧性研究。

首先、通過早篩過程中穿刺活檢的策略,提供循證的證據,先通過既往的穿刺史、用藥史、病理報告、檢驗檢查的指標,有無導尿等因素進行複雜本地的納排計算。

其次、醫渡雲再通過使用基於多方性計算的邏輯,研究像tPSA、iPSA、睾酮,格里森評分、MRI等因素和前列腺活檢陽性率之間的關聯關係,最終得到強相關的因素,可以看到基於多方計算得到的研究的結果和傳統的集中式的數據計算結果是一致的。

醫渡雲目前已經聯合專家建設了50多種疾病的專病庫,然後產出了十多個疾病專科的數據標準,基於這些專利庫產出了近100篇高質量的醫學科研論文,累積的影響因子超過450,也包括The LANCET Oncology、Nature Medicine這樣影響因子超過30分的高分雜誌。

多中心科研方面,醫渡雲目前在參與16家國家臨床研究中心的建設,覆蓋了20多個主要的疾病領域,在多中心醫學科研方面有比較完整的解決方案和經驗,歡迎感興趣的朋友和醫渡雲一起來合作。

小結:今天主要介紹了數據可用不可見相關技術,在醫學科研領域的應用還是新興的事物,醫渡雲現在也在和清華大學等知名高校在合作研究,像聯邦學習的一些性能優化溯源的機制,更公平的這種聯邦激勵機制等。

數據安全合規越來越重要的大背景下,相關的技術和產品,代表着未來的發展的趨勢,相關的技術以後一定會給這種多中心的科研的效率帶來顯著的一個提升,也非常歡迎感興趣的朋友同行跟醫渡雲做交流,一起推動相關創新在醫療行業的落地。

今天的分享就到這裡,謝謝大家。

在文末分享、點讚、在看,給個3連擊唄~

分享嘉賓:

活動推薦:

12月18日,在DataFunCon年終大會上,我們將繼續出品隱私計算相關內容,對隱私計算和數據安全感興趣的小夥伴,歡迎識別下圖二維碼,了解詳情,並免費報名收看!

關於我們:

DataFun:專注於大數據、人工智能技術應用的分享與交流。發起於2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請近1000位專家和學者參與分享。其公眾號 DataFunTalk 累計生產原創文章500+,百萬+閱讀,12萬+精準粉絲。

🧐分享、點讚、在看,給個3連擊唄!👇

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()