解釋最新科技進展,報道硅谷大事小情

準確率高達99%!
——
文|杜晨 編輯|VickyXiao
中醫講究「望聞問切」。望,指觀氣色;聞,指聽聲息;問;指詢問症狀;切;指摸脈象。
如果我們把中醫的思路,套用計算機科學上,會發生什麼?
近日,法國研究機構 IRISA 的團隊,發表了這樣一篇論文:
針對物聯網設備,
完全不通過物理和軟件方式接入目標系統,
僅通過「體外」檢測其發出的電磁波,
就能發現目標系統是否遭到入侵,甚至還能判別入侵的惡意軟件種類,準確度高達99.82%。
| 電腦查毒,也能「望聞問切」?
首先,讓我們回憶下物聯網的定義:在物聯網的時代,萬物都能聯網。而在這一概念之下,每個物體/設備,其實都是一個自主運行的計算機系統。
這些系統,從硬件、固件/軟件上,都是五花八門、形態各異的。與此同時,大多數物聯網設備都缺乏對於系統安全的考慮,而且它們也已投放到了越來越多關鍵的場景中使用,比如能源、交通、軍事等——因此,物聯網設備日益成為惡意軟件攻擊的目標。
可想而知,針對物聯網設備的查毒、殺毒,成了大問題。
近日,來自法國 IRISA 的團隊在計算機安全方面的學術大會 ACSAC 上發表了論文,題為《混淆揭曉:通過電磁信號甄別混淆後惡意軟件種類》(Obfuscation Revealed: Leveraging Electromagnetic Signals for Obfuscated Malware Classification)。
他們的研究對象,正是物聯網設備。

他們提出了一種全新的方式,只用一台樹莓派電腦作為「探測機」,對目標系統在運行時散射出的電磁波形進行檢測,從而準確地判斷目標系統是在正常運轉,還是已經被病毒入侵。
更厲害的是,該團隊用此方法進行了大量的檢測,積累了海量的數據用於訓練探測機——對於三種不同類型的惡意軟件,探測機都能夠精準識別出其種類,準確率高達99.82%。
「我們的檢測方法不需要對目標設備進行任何的調試(接入),可以輕鬆實現獨立部署。這種方法更厲害之處,在於它無法被惡意軟件本身『反偵察』到,」論文寫道,「甚至對於那些用混淆手法修改過的惡意軟件,我們的方法都能夠準確地識別出其代碼本質、使用的遮蓋方法等。」
換成我們一開始用的中醫的比喻:
這就是用中醫四診里的「聞」和「切」,來給計算機「看病」,而且準確率高到不可思議,成為了一種完全可靠的計算機查毒方法。

截至2020年底,全球投入使用的物聯網設備數量已經高達2000億台,幾乎折合每人26台……
這些物聯網設備當中,有些只是純粹通了電路,加了傳感器,有些則有着多核的處理器,具有更強大的算力。這些物聯網設備也成為了天然的黑客攻擊對象——特別是那些具有完整操作系統的設備,基本上已經和我們日常使用的電腦/手機無異了,受計算機病毒和惡意軟件的攻擊面更大。
而如果我們想要在成千上萬種功能形態配置各異的物聯網設備上,運行「查毒軟件」,簡直太難了。
也正因此,針對物聯網設備查毒的這項工作,「體外檢查」成為了一個聽起來特別酷炫,卻還真有實際意義的重要方向。畢竟,現在一些高科技的病毒已經具備很強的「反偵察」能力,能夠在被找到的時候自行摧毀或是改變形態。
論文寫道:
「惡意軟件無法偵測到外部對目標系統電磁波散射的測量,對於硬件級別的事件(如電磁波散射、硬件發熱等)也沒有控制。因此,基於硬件的保護系統無法被惡意軟件反制,從而讓電磁波散射探測高隱蔽性惡意軟件(如內核 rootkit)成為可能。」
值得提及的是,在此之前,計算機安全領域已經有一些採用電磁波方式來探測病毒的研究了。但本文的團隊指出,之前的實驗環境都更簡單,只是做了基本的可行性研究,沒有涉及到複雜的計算機惡意軟件(如變種病毒、加入混淆技術的病毒等),也無法對不同種類的惡意軟件進行準確的甄別。
「我們提出的方法,能夠在僅採用電磁散射作為探測方法的前提下,準確甄別真實世界裡存在的,不斷升級、變形的惡意軟件樣本。」
| 當電磁散射的「玄學」,碰上深度學習的「顯學」
光靠「聞」和「切」,就能判斷計算機系統是否中毒,而且還能準確識別出中了哪種毒?
對於大部分非專業人士來說,這簡直是反常識的……
事實上,IRISA 團隊所採用的病毒識別和檢測方法,也不是真的只有電磁波檢測。整個「探測機」系統雖然運行在一台樹莓派單片機上,它的實際訓練流程還是比較複雜的,而且也用到了當今的「顯學」之一——深度學習。
整個訓練過程如下:
首先是數據搜集過程。研究團隊採用三種主流的惡意軟件類型(DDoS 命令、勒索軟件、內核 rootkit),搭配當今在計算機病毒領域一些主流的混淆方法,構建了一套包含三十種惡意軟件的數據集。團隊再用這些病毒入侵一台運行 Linux 操作系統的單片機,並且對系統散射出的電磁波場進行嗅探和數據記錄。
值得注意的是數據集分成了三組,其中只有一組會用於訓練,剩下兩組均用於檢測。

然後是信號處理過程。由於目標單片機採用的是 ARM 架構多核處理器,記錄下的原始電磁信號存在大量噪音,團隊採用短時傅里葉變換 (STFT) 對其進行信號處理,生成頻譜圖,再提取信號特徵,用於下一步驟的神經網絡訓練。
最後是訓練過程。團隊採用了支持向量機 (SVM)、多層感知器 (MLP)、卷積神經網絡 (CNN)等多種結構從簡單到複雜的神經網絡,對上一步提取的特徵進行學習訓練。
團隊用這樣的實驗環境,總共收集了10萬組信號特徵設置進行訓練,將神經網絡放到探測機上進行驗證。
結果令人震驚:採用多種架構訓練的神經網絡,在惡意軟件的類型識別上均達到了超過98%的準確度。
特別是採用 CNN 訓練的探測機:
識別 DDoS、勒索軟件、內核 Rootkit 三種主要類型的準確度高達99.82%;
識別 gonnacry、keysniffer、maK_It、mirai 和 bashlite 等五種惡意軟件家族的準確度高達99.61%;
識別虛假控制流、指令集替換、虛擬化等七種代碼混淆方式,準確度高達82.70%,顯著優於隨機猜測的14.29%;
對於從未在訓練數據集中出現的新惡意軟件家族,準確度高達98.85%。
通過這項前所未有的實驗,IRISA 團隊在計算機系統的旁路惡意軟件檢測上取得了前所未有的成績。
他們證明了這種查毒方式真的非常好用,對於此前不存在的惡意軟件變種,具有極高的甄別能力,並且對於各種複雜混淆技術的耐受性非常強。
更重要的是,這種旁路檢測手段,對於目標系統完全沒有任何侵入和修改。惡意軟件的反偵察能力再強,也拿它沒招……
早在2016年,惡意軟件mirai就已經引發過一場病毒「海嘯」,感染了數十萬個路由器、攝像頭、打印機等物聯網設備,形成大規模「殭屍」網絡,進而導致多次全球級別的互聯網服務崩潰事故。
在2020年,物聯網設備的數量首次超過非物聯網。一些權威機構更是預計,全球物聯網設備將在2025年達到300億台。展望未來,物聯網惡意軟件對於人類社會運轉的威脅程度將不斷提高。
而對抗物聯網病毒,我們需要兩手抓:設備投放使用前的安全設計達標,和設備投放使用後的有效查/殺技術。
對於前者,算力成本一直是個邁不過去的坎。而對於後者,至少現在我們手裡已經有一種武器了。

喜歡這篇文章?
1)點擊右下角的「在看」
2)分享到你的朋友圈和群里
3)趕快關注硅星人吧!

