close

作為世界上規模最大、影響最廣、競技水平最高的冬季綜合性體育賽事,冬奧會的吸引力似乎已不再局限於冰雪運動員及愛好者。隨着數字化技術的日益普及,無論是組織嚴密的黑客團伙還是民間網絡犯罪分子,都試圖尋求對奧運會進行網絡攻擊。

比如在平昌冬奧會在開幕式當天,包括冬奧會網站、電視服務在內均遭到黑客攻擊,導致部分業務中斷。



面對網絡攻擊的壓力,在北京冬奧會,奇安信首創了冬奧會系統安全體系,實現了網絡安全的「零事故」。而在零事故的背後,其中一項關鍵性技術就是奇安信集團自研的大數據實時關聯分析技術-Sabre(賽博威)引擎,它支撐起對冬奧26個場館、上千億條日誌的實時監控與安全分析,累計監測數億次網絡攻擊,跟蹤和研判上百起涉奧威脅事件。
冬奧是一個實時關聯分析技術的非常典型的應用場景,具備完整要素。

1

多源異構數據的採集


毋庸置疑的是,安全運營是落實網絡安全防護的最重要手段之一,而安全運營的核心是安全分析,安全分析的核心目標是找出異常事件,並判斷這些異常事件是不是由網絡攻擊造成的。

在這裡,事件是IT系統中某一活動產生的一組數據,體現的是一個對象,它是由特定的屬性和對應的屬性值組成。比如一個防火牆事件可能包括源IP 、包括目的IP、目的端口等信息,而這些數據都被以日誌的形式記錄了下來。

所以想要找出異常事件,安全分析的第一步,就是把日誌數據都採集起來,並以事件流的方式輸入到安全分析引擎中。
「冬奧期間的日誌數據來自於18類、共計1000+數據源。」奇安信實時安全分析引擎負責人覃永靖介紹,冬奧期間,所有IT系統和網絡設備的日誌都要匯聚在實時數據平台,不僅僅包括奇安信部署的自有防火牆、SD-WAN、天擎等55款813台各類安全設備,還包括終端、服務器、網絡設備、應用系統、業務系統等所有各類IT資產。
這些數據源分布在各個場館、網絡中心、數據中心以及雲上系統,它們所產生的日誌會被源源不斷地送到實時安全分析引擎中進行關聯分析。

這其中就產生了三個要特別注意的問題。


第一是儘可能採集所有安全相關日誌,不遺漏相關數據。全量日誌數據是不發生漏報的最基本條件。網絡攻擊尤其是APT攻擊的發現往往取決於看到細節的能力,部分數據漏掉後就很容易產生「漏網之魚」。比如一次突然的異地登錄或者一個未知域名的訪問,這些都有可能是已經被入侵的信號。如果採集的數據不全,這些信號就可能會被錯過了。

第二是需要將採集的數據儘可能快的發送到安全分析平台,日誌在源源不斷的生產,後面分析引擎處於一刻不停的自動分析過程中,採集到的數據需要確保一定的時間線,即前後的時間差需要在一個窗口之內,時間相差太大的日誌會影響分析的資源和結果產生影響,因此在整條數據流水線上需要保證一定的實時性。

第三是要能夠對各類不同的安全日誌進行標準化採集、傳輸解析和處理。數據源不只有奇安信自有的安全設備,還有多個不同供應商的各類應用,這其中不只有網絡安全廠商,還包括網絡設備提供商、雲計算提供商、應用軟件提供商甚至包括大大小小的開源組件等等,所以對於多源異構數據的支持也非常重要。這個過程叫做歸一化,不同類型但相同含義的字段需要統一類型和名稱,為後面的實時安全分析做好準備。

2

實時安全分析



日誌收集起來後,僅僅是「已閱」是不行的,實時分析引擎的核心應該是「判」。

安全分析方法主要包括兩種:

◆第一種是延遲計算,即數據收集和安全分析分離;
◆第二種是實時計算,也就是數據收集和安全分析同步進行。
顯而易見的是,冬奧冬殘奧期間,在平均每天能夠產生超過37億條日誌、峰值可以達到近10萬條每秒的冬奧網絡環境下,實時計算更加合適。
否則安全事故沒準已經發生了,計算還沒開始,這還談何零事故。

奇安信的實時安全分析引擎分為三層。

◆底層是大數據集群,主要用於日誌數據的採集、存儲和預處理。大數據集群為實時安全分析提供了強大的算力支持,否則面對如此海量的多源異構數據就該「罷工」了。
◆中間層主要進行安全分析,它基於目前最流行的開源實時計算框架Flink構建,負責利用各種技術手段,同時結合威脅情報、漏洞情報、資產等知識數據,對日誌進行安全分析。
◆最上層則是應用層,負責與用戶進行交互,輸出分析結果和向安全分析引擎傳輸用戶指令。
眾所周知,安全分析的關鍵要素就是時間,即要求能在最短的時間內發現網絡攻擊行為、響應安全事件,並且在發現新型攻擊行為之後,能夠第一時間上線針對性的安全檢測方法。

顯然,快速完成安全分析是零事故的另一個關鍵保證,它能夠將網絡攻擊控制在最小範圍內。

好在Flink最重要的特點是允許以數據並行和流水線方式執行任意流數據程序,並且具備高吞吐低延遲的能力。這就意味着,在充足算力的支持下,即便冬奧期間的日誌量再大一些,奇安信安全分析引擎依然能夠平穩運行,保證日誌分析的速度和準確度。

但安全分析的目的是要找出異常事件,因此用戶需要快速實現威脅建模,並在特定模型下將計算結果與外部輸入的檢測規則、威脅情報、漏洞情報等知識庫進行匹配。

所以,安全分析引擎不僅僅要求極快的計算速度,還要使用起來非常便捷,這樣才能最大化提升安全分析的效率。

對於後者,原生Flink框架的支持力度是遠遠不夠的。

「所以我們提供了一種針對安全分析場景進行特定優化的安全分析語言。」覃永靖說,它滿足了以下幾個特點:


第一,簡單易用,學習成本低,易上手,能夠滿足一個沒有研發背景的人,也能經過簡單學習之後就能上手使用。

第二,支持豐富的數據類型,這些數據不僅要包含文件讀寫、網絡訪問等基礎數據類型,還要包含大量的安全數據比如IP,各類時間、資產、漏洞、威脅情報、地理位置等,用戶可以不做任何定製就能直接對這些數據進行關聯分析,因為這些數據能夠為安全分析提供大量的直接證據。比如惡意軟件感染發生的時間,感染的主機類型、數量、與外部發生通信的IP地址、使用的漏洞、攻擊載荷等等。

第三,提供豐富的語義,尤其對安全分析語義進行增強和定製以及擴展。安全分析的場景是複雜、多變的,沒有豐富的語義很難滿足所有安全分析的需求。但即便是這樣,不同的網絡環境依然會面臨無對應語義的情況,這就需要有經驗的分析師進行個性化擴展。攻擊手法的變化非常頻繁,對於安全分析來說,總會遇到一些安全語義無法判斷和解釋的行為,尤其是冬奧場景,這對於國內安全廠商來說都是頭一回,很難保證不出現什麼意料之外的局面。

3

行為分析與複雜事件關聯


如果分析結果能夠與已知的規則、威脅情報進行匹配,比如URL、IP地址、文件MD5等,那自然是網絡安全問題無疑,但還有一些時候並不是這樣。

舉個典型的例子,比如內網某主機的流量經常會明顯高於其他同類型主機。

這當然有可能是該主機已經被攻陷,被植入了一些特殊的木馬導致流量異常增高。攻擊者使用了全新的特種木馬和基礎設施,導致終端安全軟件並沒有檢測出來。

但如果是僅憑流量偏高這個條件,分析人員很難判定它是異常,因為分析工具並沒有一個基線標準能夠進行比對,有可能就是有一些特殊業務或者特殊時間段,導致流量偏高。

針對這種事件,行為分析是一個非常有用的安全分析方法,它通過學習待分析對象的歷史數據生成安全基線,來檢測異常行為。比如今天這個主機的流量不僅比同類型其他主機高,也比歷史平均水平和流量峰值高出許多,那基本可以判定是異常行為,需要進一步檢查。

從中能夠看出,安全基線是判定異常行為的核心。

安全基線分為三類:

◆第一類是統計類安全基線,包含常見的時長、大小、頻率、空間、範圍等多種形式;
◆第二是序列類,比如指數平滑類和周期類安全基線,具備明顯的時間先後順序或者周期規律;
◆第三是機器學習類的安全基線。

(基線詳情可參考此文《當你不知道孰是孰非的時候,總有一個引擎在默默制定判斷標準》)

在冬奧場景中,基線檢測的應用範圍會更加廣泛。作為一個全新搭建起來的複雜信息系統,不論是人還是安全設備,都會感到非常「陌生」。因此,歷史數據的學習,對於檢測異常行為而言十分必要。

除了行為分析以外,關聯分析也是必不可少的一項手段,它主要適用於兩個場景:

第一,單一事件無明顯異常,但多個相關事件進行關聯則表現出明顯異常;

其二,單一數據源無法反映攻擊全貌,需要綜合終端、流量、服務器等多個數據源進行全局關聯分析,還原完整攻擊鏈條。

再舉兩個例子。日誌顯示,多個高危端口短時間內被多次掃描並嘗試登錄;內網某服務器發現非法訪問行為。

這些事件可能獨立發生,也可能會同時發生,之間可能有關聯也可能沒有關聯。如果結合前文中的例子,那麼完整的事件就有可能是攻擊者攻陷了某內網終端,並利用該終端通過高危端口訪問某服務器。

這就是關聯分析的重要意義。
「關聯分析是一個常用的安全分析方法,比如當發現某個安全事件後需要將攻擊者信息進行全局關聯,來發現是否還有其它攻擊行為。」覃永靖說,這就像拼圖遊戲,缺少一塊是永遠拼不完整的。

4

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

性能優化與狀態監控


需要注意的是,對於冬奧這種全球矚目的大型體育賽事,對於業務的連續性要求是近乎嚴苛的。大到全球的電視轉播,小到一個記分牌或者計時牌,都不能中斷。

這也就是說,網絡安全事故是決不能出現的,但同時也絕對不能出現「網絡攻擊沒把網絡搞癱,『安檢』卻把它搞癱了」的現象。

這就需要對性能和資源使用進行優化,防止占用過多硬件資源。

對於實時分析引擎而言,每條檢測規則可抽象為一個邏輯子圖,用於表達檢測流程,就像下圖這樣:

然而一個安全檢測集通常包含上千條規則,如果同時運行這麼多規則,必定會消耗大量的資源,因此需要在全局層面進行優化,將分散的子圖轉換為一個執行圖,以此大幅降低計算複雜度,大致過程如下圖:

另外一個需要重點優化的就是外部數據的匹配。在冬奧期間,奇安信累計投入生產了超過25000條高質量的威脅情報,如果再加上10000+台終端信息、漏洞情報信息以及各種黑名單、白名單,這個數據量是相當大的。如果每次事件都進行一一匹配,就相當於挨個「打招呼」,不僅需要大量時間,還會造成性能損耗。因此分析引擎需要支持一些數據匹配和存儲的優化計數,包含精確、範圍和模糊匹配的方法,來提升匹配速度。

比如威脅情報、資產、漏洞、各種白黑名單等,對於超大規模數據表的匹配會帶來一些很大的挑戰,比如大規模串正則匹配問題等,比如超大規模串正則匹配引擎(100w+),hash匹配、大規模IP匹配計數,包含精確、範圍和模糊匹配,以及大規模知識庫存儲和匹配的優化方法。

萬事俱備,然而當引擎真正運轉起來之後,作為使用者,還得關心它運行的好不好,如果某些組件資源占用過多,就得對其採取下線、隔離或者限制資源使用等措施了,防止影響其他規則甚至業務的正常運行。

當然,有時候也不能過快了。

實時分析引擎的下游業務可能是一些處理能力比較慢的流程,這時候就需流量控制,防止較快的處理流程向較慢的處理流程輸入過多的數據而引起資源過度消耗和卡頓。流量控制需要支持主動流量控制、被動流量控制以及時間窗口相關的流量控制,通過用戶配置或自動處理來解決前後處理性能不一引起的數據丟失和系統不穩定問題。

粗算起來,冬奧期間經過實時分析引擎的日誌數量就超過了1000億條,產生的告警數量也是極為龐大的。這樣的爆肝能力搭載在奇安信NGSOC上,難怪會讓奇安信冬奧重保奇安信冬奧保障總架構師尹智清直呼「愛了愛了」。

不過,保證冬奧零事故也不是就靠一個實時分析引擎就能完成的,而是人+工具+流程+數據的交互結合,並且不斷完善的動態體系。

而奇安信冬奧期間實時安全分析所累積的經驗,也將為整個中國乃至全球的網絡安全服務。


零事故揭秘系列

靈魂四問,看奇安信如何保障上萬冬奧終端「零事故」?

四大服務器中心、數百家重要客戶,冬奧安保最後一道防線該如何守住?

揭秘:奧運史上第一個「雲上奧運」 是如何保障雲上安全的?

零事故的背後:解密冬奧網絡安全的「眼睛」

零事故的背後:一道關乎北京冬奧的網絡縱深防線

3.8億次網絡攻擊與冬奧「零事故」承諾背後的攻防博弈

零事故背後|揭秘NGSOC如何助力冬奧安全運營中心——安全運維和應急響應篇

零事故背後|揭秘NGSOC如何助力冬奧安全運營中心——標準化運營篇

零事故背後|揭秘零事故背後的冬奧安全運營中心——規劃和建設篇

奧運「零事故」世界紀錄背後:實戰化態勢感知如何「三位一體」

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()