close

摘 要:

針對現有入侵檢測技術精度較低、特徵提取能力不足的問題,構建了一種基於混合粒子群算法與多核最小二乘支持向量機的網絡入侵檢測模型。該模型首先針對單核最小二乘支持向量機存在的泛化能力弱、學習能力差的問題,結合多項式核函數和徑向基函數的優點,構建多核最小二乘支持向量機;其次提出了一種用於入侵檢測數據特徵提取和多核最小二乘支持向量機參數優化的混合粒子群算法;最後將提取的特徵作為參數優化後的多核最小二乘支持向量機的輸入,實現對入侵檢測數據集的分類識別。為了評估提出的模型的有效性,基於 NSL-KDD、UNSW-NB15 和 CICIDS-2017 數據集進行了實驗,實驗結果表明提出的模型的檢測效果明顯優於其他傳統模型。

內容目錄:

1 多核 LSSVM

2 混合粒子群算法 HPSO

2.1 粒子群算法

2.2 二進制粒子群算法

2.3 混合粒子群算法 HPSO

2.3.1 粒子編碼

2.3.2 基於 MKLSSVM 的適應度值函數

2.3.3 HPSO 算法流程

3 基於 HPSO 與多核 LSSVM 的網絡入侵檢測模型

4 仿真實驗

4.1 實驗環境及評價指標

4.2 實驗數據

4.3 模型參數設置

4.4 實驗結果評價指標

4.4.1 不同核函數下的 LSSVM 模型對比

4.4.2 HPSO-MKLSSVM 與 LSSVM、MKLSSVM 的對比

4.4.3 HPSO-MKLSSVM 與 PSO-MKLSSVM、BPSO-MKLSSVM 的對比

4.4.4 與其他已有檢測模型的對比

5 結 語

隨着信息技術的發展,互聯網已經滲透到人們工作和生活的方方面面,在給人們帶來極大便利的同時,對互聯網的攻擊也層出不窮,入侵計算機系統的手段增多,呈現智能化、集體化的趨勢。此外,網絡攻擊的頻繁發生,不僅損害了網民的利益,也對社會經濟和國家安全構成威脅和挑戰。因此,為了保護系統的安全,作為一種主動動態防禦技術,入侵檢測技術(Intrusion Detection Technology,IDT)的研究和應用越來越重要 。IDT 的主要任務是發現和禁止來自網絡流量的異常連接。一般地,入侵檢測方法可分為兩類:基於誤用的檢測方法和基於異常的檢測方法 。

基於誤用的檢測方法主要通過預先將已知入侵行為的簽名存儲在數據庫中,將網絡連接的特徵與簽名進行匹配來確定網絡連接是否為攻擊 。如果匹配一個簽名,則此連接是一種攻擊。這些方法可以有效地識別誤報率低的知名網絡攻擊。但是,當遇到屬性與數據庫中任何簽名都不匹配的未知入侵時,這些方法就會失效。為了解決這個問題,基於誤用的檢測方法需要定期進行數據庫更新,然而獲得新的入侵行為的簽名通常非常昂貴。基於異常的檢測方法則主要通過對正常行為進行訓練,以識別明顯偏離正常配置文件的流量來檢測網絡入侵 。基於異常的檢測方法通常基於異常連接的特徵與正常連接的特徵之間的差別較大這一假設條件,該方法不再需要存儲攻擊模式的簽名。基於異常的檢測方法不僅可以識別未知的入侵行為,還可以識別未知的未來攻擊,這是此類方法相對於基於誤用的檢測方法的優勢。然而基於異常的檢測方法可能會將一些位於正常行為和異常行為之間的邊界正常流量進行錯誤分類。

隨着新的攻擊不斷湧現,基於異常的入侵檢測方法引起了越來越多的研究人員的關注。為了獲得可靠的檢測結果,研究人員付出了巨大的努力。在早期階段,基於規則的專家系統和統計方法被應用於入侵檢測中 。但是在處理大規模網絡流量時,這些方法的性能較差。

基於異常的入侵檢測本質上是一個分類問題,因此研究人員利用各種機器學習技術開發了不同的入侵檢測系統(Intrusion Detection System,IDS),例如決策樹、支持向量機、樸素貝葉斯和人工神經網絡等 。開發 IDS 的主要目標是實現儘可能高的檢測準確性,為進一步增強入侵檢測的精度,眾多基於多種機器學習方法的混合模型被提出。混合模型背後的基本思想是通過結合多種機器學習技術來顯著提高檢測性能。現有的混合模型主要包括集成分學習方法、聚類加分類的方法、特徵選擇加分類的方法等。然而,通常情況下,異常流量在數量上遠小於正常流量,這使得現有基於機器學習的入侵檢測方法難以捕捉有效分類特徵,無法有效建立攻擊行為的檢測模型,而且在檢測過程中,現有基於機器學習的入侵檢測方法並未考慮整體數據分布,使得決策函數會偏向多數樣本,而將低頻攻擊樣本作為噪聲點忽略,從而產生錯誤的檢測結果 。

基於此,本文提出了一種基於混合粒子群算法(Hybrid Particle Swarm Optimization,HPSO)與多核最小二乘支持向量機(Multi Kernel Least Squares Support Vector Machine,MKLSSVM) 的網絡入侵檢測(HPSO-MKLSSVM)模型。該模型由兩個階段組成,在第一階段,基於 HPSO 實現入侵檢測數據集的特徵提取以及 MKLSSVM 的參數優化;在第二階段,將提取的數據特徵作為優化後的 MKLSSVM 的輸入,實現對於入侵檢測數據集的分類。在實驗中,本文在 NSL-KDD、UNSW-NB15 和 CICIDS-2017 數據集上進行不同的實驗來評估 HPSO-MKLSSVM 模型的性能。

01


多核 LSSVM

LSSVM 作為一種基於結構風險最小化的機器學習算法,通常用於處理小樣本問題且具有較高的泛化性能 [18]。單輸出 LSSVM 回歸的基本原理如下文所述。

假設為訓練樣本集, N為訓練樣本總數;為輸入訓練樣本;為其對應的輸出。回歸估計函數可以表示為:

其中 ω 和 b 分別表示權重和偏置,是一個非線性映射函數,其可以將訓練樣本映射到高維特徵空間。LSSVM 定義優化問題的目標函數為:

式中:γ 為懲罰係數;e 為鬆弛變量。將式(1)代入拉格朗日函數得到:

式中:C 為懲罰係數,為常量,為拉格朗日乘子。

由 KKT(Karush-Kuhn-Tucker) 優 化 條 件求解,最終可得到如下的 LSSVM 回歸函數模型:

其中是滿足 Mercer 條件的正定核函數。不同類型的核函數對 LSSVM 模型的性能具有不同的影響,在本文中為提高 LSSVM 的泛化能力,結合高斯核函數(Radial Basis Function,RBF)和多項式核函數(Polynomial Kernel Function,Poly)的優點,構建了一個加權多核 LSSVM(Multi-Kernel LSSVM,MKLSSVM)。MKLSSVM 的核函數為:

式中:分別代表輸入訓練樣本 i 和 j ;為權重係數;分別為 RBF 核函數和 Poly 核函數。兩個核函數的標識如下:

其中σ 為樣本的方差,b 和 p 分別為常數和多項式核函數的指數參數。

02


混合粒子群算法 HPSO

2.1 粒子群算法

粒子群優化算法(Particle Swarm Optimization,PSO)由 Kennedy 和 Eberhart 在 1995 年首先提出,其靈感來自鳥類的社會行為,可以有效解決真實搜索空間中複雜的優化問題。利用 PSO 中的粒子在解空間搜索最佳解時,每個粒子都有一個對應的位置及速度,每個粒子從搜索開始到結束過程中每次迭代時的局部最佳位置都會被保存。在每次迭代中,具有全局最佳位置的粒子被視為領導者,其他粒子都會趨向於到達其位置,因此粒子的移動受到兩個因素的影響:粒子本身從第一次迭代到當前迭代時的局部最佳位置及領導者所處的全局最優位置。粒子的速度及位置更新公式如下:

在上述公式中,為第 i 個粒子在第 t +1次迭代時的速度;為第i 個粒子在第 t +1次迭代時的位置;t 為當前迭代次數;為學習因子, rand 是滿足 0-1 正態分布的一個正隨機數;ω 為慣性權重係數;為粒子 i 的當前局部最佳位置;為粒子種群當前全局最優位置。

2.2 二進制粒子群算法

Kennedy 和 Eberhart 在 1997 年設計了用於解決離散空間中優化問題的二進制 PSO(Binary PSO,BPSO)[20]。BPSO 與 PSO 的不同之處在於,粒子位置只有兩個可能的值(0 或 1)。在 BPSO 中,式(10)和式(11)為速度和位置的更新方程:

其中,代表如下所示的 Sigmoid 函數。

考慮到粒子的速度往往被限制在內,的計算公式如下:

因 此,的取值範圍為,是[0,1] 區間內的一個子集。

2.3 混合粒子群算法 HPSO

為了降低利用 MKLSSVM 進行入侵檢測時數據樣本的維度,同時增強利用 MKLSSVM 進行入侵檢測時的泛化能力,本文提出了一種結合 PSO和 BPSO 算法的混合粒子群算法 HPSO,用於入侵檢測原始數據的特徵提取及 MKLSSVM 參數優化。其中,BPSO 算法主要用於入侵檢測數據的特徵提取;PSO 算法用於優化 MKLSSVM 的參數。使用 BPSO 進行入侵檢測數據的特徵選擇是因為特徵選擇問題是一個離散型問題,使用 BPSO 可以有效解決此類問題;而 MKLSSVM 中的參數優化問題則是一個實值優化問題,PSO 已被成功用於解決實值參數領域的工程優化問題 。因此,本文將用於特徵選擇的 BPSO 與用於 MKLSSVM參數優化的 PSO 相結合。

2.3.1 粒子編碼

在 使 用 HPSO 算 法 時, 需 要 建 立 粒 子 與入侵檢測數據特徵及 MKLSSVM 參數之間的映射 聯 系。本 文 針 對 HPSO 算 法 的 特 殊 性( 既含 有 PSO, 又 含 有 BPSO), 分 別 針 對 PSO 及BPSO 的粒子進行編碼,如圖 1 所示。其中 n 為MKLSSVM 核參數和權重係數的總數, m 為入侵檢測原始數據的維度。

圖 1 粒子編碼

其中,當時,說明入侵檢測原始數據的第i 個特徵被選中,否則該特徵將被捨棄。

2.3.2 基於 MKLSSVM 的適應度值函數

本文選擇 MKLSSVM 作為回歸模型來評估每個候選特徵子集的檢測性能,假設最優的特徵子集不僅能使 MKLSSVM 具有出色的檢測性能,且能包含更多相關特徵和更少不相關特徵。在基於 PSO 進行數據特徵選擇及基於 BPSO 進行MKLSSVM 參數優化時,構建了基於 MKLSSVM的適應度值函數,如下所示:

式 中,為 候 選 特 征 子 集 的 二 進 制 編 碼;為根據特徵子集利用 MKLSSVM進行入侵檢測得到的誤差;參數 p 為權重係數,當利用 PSO 進行 MKLSSVM 參數優化時, p 取值為 0,當利用 BPSO 進行特徵提取時, p 取值為 1;為利用特徵排序策略計算得到的特徵子集中特徵與目標變量之間的相關性值,具體計算公式如下。

其中的值越小,表明利用該特徵進行檢測時的結果越好。在 基 於 HPSO 進 行 數 據 特 征 選 擇 及MKLSSVM 參數優化時,式(14)的值越小,表明選擇的特徵子集及得到的 MKLSSVM 參數越好。

2.3.3 HPSO 算法流程

HPSO 算法的具體流程如下。

Step1:隨機生成兩個粒子種群,並設置當前的迭代次數初始值及總迭代次數。其中 代表 PSO 粒子種群, 代表 BPSO 粒子種群。

Step2:根 據 式(14) 計 算 中每個粒子的適應度值。

Step3:對兩個種群中的所有粒子進行局部最優位置更新,對兩個種群進行全局最優位置更新。

Step4:根據式(8)、式(9)更新中粒子的速度及位置,根據式(10)、式(11)更新中粒子的速度及位置。

Step5:是否滿足終止條件,如果達到結束條件,則需要算法運行;否則,返回 Step2。

03


基於 HPSO 與多核 LSSVM 的網絡入侵檢測模型

針 對 現 有 入 侵 檢 測 技 術 精 度 較 低、 特 征提取能力不足的問題,本文構建了基於 HPSO與 多 核 LSSVM 的 網 絡 入 侵 檢 測 模 型(HPSO MKLSSVM)。其實現流程如圖 2 所示。

圖 2 HPSO-MKLSSVM 模型流程

(1)將入侵檢測數據集劃分為訓練集和測試集。(2)利用 HPSO 算法進行訓練集數據訓練,提取數據特徵同時得到 MKLSSVM 的最優參數。(3)依據(2)中得到的訓練集數據特徵,得到測試集數據特徵。(4)將(2)中得到的 MKLSSVM 參數帶入MKLSSVM 中,對(3)中得到的測試集數據特徵進行分類。(5)將得到的分類結果進行保存,算法終止運行。

04


仿真實驗

4.1 實驗環境及評價指標

本文的實驗環境操作系統為 Ubuntu 18.04.5(64 位),2.90 GHz 8 核的 CPU,GPU 是 GTX1080Ti,內存 16 GB,硬盤 500 GB,開發語言採用 Python3.8.2。

為了評估 HPSO-MKLSSVM 模型的性能,採用準確率(Accuracy)、精度(Precision)、召回率(Recall)和 F-score 值作為評估指標。這些指標的計算方法如下:

式中:TP 代表該實例為正樣本,且分類正確;TN 代表該實例為負樣本,且分類器識別正確;FP 代表該實例為負樣本,分類識別結果錯誤;FN 代表該實例為正樣本,分類識別結果錯誤。

4.2 實驗數據

本文基於 NSL-KDD、UNSW-NB15、CICIDS-2017 3 個數據集來驗證 HPSO-MKLSSVM 模型的有效性。3 種數據集的詳細信息如表 1 所示。

表 1 數據集信息描述

(1)NSL-KDD 數據集包含一個訓練集和一個測試集,其中訓練集有 125 973 條記錄,測試集有 22 543 條記錄。該數據集含有 4 種攻擊類型(Dos、Probe、R2L、U2R),其中攻擊類型數據量遠低於正常類型數據量。(2)UNSW-NB15 數據集是由澳大利亞網絡安全中心的網絡靶場實驗室收集的 9 種攻擊類型,分別是 Fuzzers、Analysis、Backdoor、DoS、Exploits、Generic、Reconnaissance、Shellcode 和Normal。UNSW-NB15 數據集包含一個訓練集和一個測試集,訓練集有 175 211 條記錄,測試集有 82 286 條記錄。(3)CICIDS-2017 數據集包含基於數據包和雙向流格式的網絡流量,每條記錄包含 82 個網絡流特徵。與 NSL-KDD 和 UNSW-NB15 相比,CICIDS-2017 包括更為廣泛的攻擊類型,例如暴力攻擊DoS、Heartbleed、Web 滲透和 DDoS 等。

4.3 模型參數設置

在 HPSO-MKLSSVM 模型中,相關參數的設置如表 2 所示。

表 2 模型參數設置

在 利 用 HPSO 進 行 特 征 選 擇 後,NSL-KDD、UNSW-NB15 和 CICIDS-2017 三種數據集的特徵子集如表 3 所示。

表 3 3 種數據集的特徵選擇結果

4.4 實驗結果評價指標

4.4.1 不同核函數下的 LSSVM 模型對比

為驗證 MKLSSVM 的有效性,將其與核函數 為 Poly 的 LSSVM(Ploy_LSSVM) 和 核 函 數為 RBF 的 LSSVM(RBF_LSSVM) 在 3 種 數 據集上進行仿真實驗。表 4 為 Ploy_LSSVM、RBF_LSSVM、MKLSSVM 這 3 種模型在 3 種數據集上的檢測結果的評價指標。

從表 4 可以看出,MKLSSVM 的檢測結果明顯優於另外兩種模型。這說明,本文使徑向基核函數(RBF)與多項式核函數構建而成的多核函數 LSSVM 模型充分發揮了 Ploy 與 RBF 核函數的優勢,克服了兩者自身存在的缺點,在異常檢測中有了更好的表現。

表 4 不同核函數下的 LSSVM 模型檢測結果評價指標

4.4.2 HPSO-MKLSSVM 與 LSSVM、

MKLSSVM 的對比本節將 HPSO-MKLSSVM 與 LSSVM(RBF 核函數)、MKLSSVM 分別在 3 個數據集上進行實驗對比,實驗結果如表 5 所示。可以看出,HPSO-MKLSSVM 模型相對於 LSSVM 模型,在NSL-KDD 數 據 集 上 的 4 個 指 標 分 別 提 高 了1.746%、2.049%、3.247%、2.577%,在 UNSWNB15 數據集上的 4 個指標分別提高了 6.908%、4.929%、6.079%、5.505%,在CICIDS-2017 數據 集 上 的 4 個 指 標 分 別 提 高 了 3.159%、12.468%、10.845%、11.662%;HPSO-MKLSSVM模型相對於 MKLSSVM 模型,在 NSL-KDD 數據集上的 4 個指標分別提高了 0.96%、0.914%、0.96%、0.938%, 在 UNSW-NB15 數 據 集 上 的4 個指標分別提高了 2.241%、0.871%、1.09%、0.981%,在CICIDS-2017 數據集上的 4 個指標分別提高了 1.502%、0.33%、0.607%、0.469%。這表明,本文所提出的 HPSO-MKLSSVM 方法具 有 更 高 的 計 算 效 果。在 HPSO-MKLSSVM中,Poly 核函數與 RBF 核函數被結合起來作為 LSSVM 的核函數,同時 HPSO 算法被用於進行數據特徵提取及 MKLSSVM 參數優化,該模型將這兩種改進方式結合在一起進行異常檢測時確實具有更好的檢測效果和更高的檢測效率。

表 5 HPSO-MKLSSVM 與 LSSVM、MKLSSVM 的檢測結果評價指標

4.4.3 HPSO-MKLSSVM 與 PSO-MKLSSVM、

BPSO-MKLSSVM 的對比本節將HPSO-MKLSSVM與PSO-MKLSSVM、BPSO-MKLSSVM 分 別 在 3 個 數 據 集 上 進 行 實驗 對 比, 實 驗 結 果 如 表 6 所 示。可 以 看 出,HPSO-MKLSSVM 在 3 個數據集上獲得的 F-score值 分 別 為 91.739%、98.394%、98.783%;PSOMKLSSVM 在 3 個 數 據 集 上 獲 得 的 F-score 值分 別 為 91.061%、97.413%、98.403%;BPSOMKLSSVM 在 3 個數據集上獲得的 F-score 值分別為 91.304%、97.783%、98.595%。PSO-MKLSSVM和 BPSO-MKLSSVM 相 比, 在 3 個 數 據 集 上,HPSO-MKLSSVM 的 F-score 值分別提高了 0.678%和 0.435%、0.981% 和 0.611%、0.38% 和 0.188%。這些結果表明,將 PSO 和 BPSO 混合起來分別用於特徵提取及 MKLSSVM 參數優化以提高模型檢測性能,其效果明顯優於單 PSO 和單 BPSO。

4.4.4 與其他已有檢測模型的對比

對 於 本 文 提 出 的 HPSO-MKLSSVM 模 型,本節在 3 個數據集上,將其與其他文獻已有方法(IG-KPCA、DDQN、LMDRT-SVM、IPSO-IRELM、CBR-CNN)分別進行測試,結果如表 7 所示。可以看出,與其他方法相比,HPSO-MKLSSVM 模型在 3 個數據集上均具有更高的分類精度。相對於 IG-KPCA 模型,HPSOMKLSSVM 在 3 個數據集上檢測結果的 F-score的值分別提高了 4.62%、9.07%、6.155%;相對於 DDQN 模型,HPSO-MKLSSVM 在 3 個數據集上檢測結果的 F-score 的值分別提高了 3.314%、7.269%、2.13%;相 對 於 LMDRT-SVM 模 型,HPSO-MKLSSVM 在 3 個 數 據 集 上 檢 測 結 果的 F-score的 值 分 別 提 高 了 1.886%、5.425%、8.688%;相 對 於 IPSO-IRELM 模 型,HPSO MKLSSVM 在 3 個數據集上檢測結果的 F-score的值分別提高了 3.261%、3.987%、4.378%;相對 於 CBR-CNN 模 型,HPSO-MKLSSVM 在 3 個數據集上檢測結果的 F-score 的值分別提高了1.902%、4.172%、5.087%。這充分說明 HPSO-MKLSSVM 模型在 3 個數據集上均具有更好的檢測性能,驗證了模型的有效性。

表 6 3 種模型檢測結果評價指標

表 7 HPSO-MKLSSVM 與其他已有檢測模型的檢測結果評價指標

05


結 語

本文針對異常入侵檢測中的網絡數據量大、特徵維數高以及傳統機器學習算法對數據標籤依賴性高等問題,提出了一種基於 HPSO 與多 核 MKLSSVM 的 網 絡 入 侵 檢 測 模 型(HPSO MKLSSVM)。在實驗中,本文首先將基於多核函數的 MKLSSVM 與基於單 RBF 核函數的 LSSVM(RBF_LSSVM)、基於 Poly 核函數的 LSSVM(Poly_LSSVM)進行對比,結果表明 MKLSSVM 充分結合了兩個核函數各自的優勢,具有更好的檢測性能;其次將 HPSO-MKLSSVM 與 LSSVM、MKLSSVM 模型進行對比,結果表明,在 HPSO-MKLSSVM 模型中使用 HPSO 算法進行特徵提取和 MKLSSVM 參數優化是有效的,此外,將 HPSO-MKLSSVM 模型與單使用 PSO 的 PSO-MKLSSVM、單使用 BPSO的 BPSO-MKLSSVM 模型進行對比,結果表明該模型在 4 個評價指標上均具有更好的表現,充分發揮了 PSO 及 BPSO 兩者的優勢;最後將 HPSOMKLSSVM 模型與其他已有模型進行對比,結果表明其具有更好的檢測性能。

本文模型只考慮了將網絡流量視為正常或者異常的二分類情況,接下來將在檢測出異常流量的基礎上,進行異常流量多分類的研究。

引用格式:王運兵 , 姬少培 , 查成超 . 基於 HPSO 與多核 LSSVM 的網絡入侵檢測 [J]. 信息安全與通信保密 ,2022(6):111-122.

作者簡介 >>>

王運兵,男,學士,高級工程師,主要研究方向為信息安全;
姬少培,男,碩士,工程師,主要研究方向為數據安全;
查成超,男,碩士,工程師,主要研究方向為大數據安全。

選自《信息安全與通信保密》2022年第6期(為便於排版,已省去參考文獻)

商務合作 | 開白轉載 | 媒體交流 | 理事服務

請聯繫:15710013727(微信同號)

《信息安全與通信保密》雜誌投稿

聯繫電話:13391516229(微信同號)

郵箱:xxaqtgxt@163.com

《通信技術》雜誌投稿

聯繫電話:15198220331(微信同號)

郵箱:txjstgyx@163.com

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()