【摘要】
越來越多的信息以非結構化文本數據的形式在網上共享,尤其是在社交媒體上,這為補充傳統的網絡威脅情報來源提供了機會。由於人工無法處理如此龐大的數據量,我們探索了一些使用機器學習來協助分析的可能性。我們特別關注檢索與指定威脅行動者相關的信息。通過對現有的語言模型進行微調,以特定的下游任務為基礎,基於偽自動注釋的數據,可以獲得檢測和提取之前未見過的威脅參與者的模型。我們在不同的條件下執行多次評估,其中一些表明模型確實能夠產生在半自動分析設置中有用的結果。此外,我們將此視為將通用語言模型應用於特定領域任務的一個案例研究,並反思了一些更普遍的經驗教訓。
1.0介紹
威脅情報是網絡防禦不可或缺的一部分。技術系統的日誌記錄和監控是網絡威脅情報 (CTI) 的傳統來源。越來越多的在線信息共享,尤其是在社交媒體上,為補充傳統資源以提高網絡環境中的態勢感知提供了機會。大規模利用這些新資源需要以比任何分析師都高得多的處理速度篩選大量非結構化數據。因此,需要半自動分析,將分析師的思想優勢與計算機的處理能力相結合。
近年來,自然語言處理(NLP)和機器學習(ML)的發展提供了強大而通用的語言模型,這些模型通過大量的文本數據和計算能力來表示對語言的一般理解。這些模型可以在更小的數據量上進行微調,以便學習特定的任務。在本工作中,我們探索了將此類語言模型應用於網絡威脅情報 (CTI)場景的可能性,特別是我們重點關注自動識別文本中提到的(以前未見過的)網絡威脅參與者的任務。這種功能除了與網絡威脅情報 (CTI)相關的好處之外,還可以作為將通用語言模型應用於特定領域任務的案例研究,這些任務不能假定已有的數據集和評估基準可用。
2.0背景
之前的大量OSINT文本數據中網絡威脅情報 (CTI)自動提取的工作包括在2017年IEEE數據挖掘國際會議研討會(ICDMW)中提出的一個「在線討論中的網絡威脅的早期預警」系統。該系統能夠根據來自Twitter和暗網論壇的數據,使用基於術語和字典的文本分析方法,對特定類型的網絡威脅產生預警。在漏洞和數據泄露兩種情況下驗證了該方法的有效性。
在這項工作中,我們使用了預先訓練好的語言模型。在自然語言處理(NLP)中,語言模型是學習語言的概率表示的機器學習模型。這些模型以一種無監督的方式訓練,其中模型被給予一個文本語料庫和一個無監督的前置任務。前置任務是不需要人工注釋的任務。一個常見的例子是語言模型目標(Language Model Objective, LMO),該模型的任務是預測給定文本序列中的下一個單詞。前置任務的目的不是解決任務本身,而是為下游任務的微調模型做準備。
最近的語言模型都是基於一種名為Transformer的神經網絡。以前的方法一次只處理一個輸入序列的元素,而Transformer可以並行處理序列中的所有元素。這種更有效的文本處理形式使得使用更多的訓練數據和更大的模型成為可能。這反過來又有助於基於transformer的語言模型在各種自然語言處理(NLP)任務中實現最先進的性能。
在這項工作中,我們評估了四種不同的基於轉換器的語言模型:來自Transformer (BERT)的雙向編碼器表示(Bidirectional Encoder Representation)是推廣預訓練算法的方法。BERT使用了兩個前置任務:掩碼語言模型(MLM)目標和下一個句子預測任務(NSP)。對於掩碼語言模型(MLM),在輸入文本中的一個標記子集被屏蔽,模型必須預測原始標記。在NSP中,該模型預測兩個文本序列在訓練語料庫中是否重合。本文中使用的所有模型,除了 DistilBERT,本文中使用的所有模型都具有使用兩個前置任務的預訓練設置。BERT有兩種規格可供選擇:1.1億個參數的BERT-base模型和3.4億個參數的BERT-large模型。由於訓練和評估過程中的硬件限制,我們使用較小的BERT-base版本。該模型利用圖書語料庫和英語維基百科進行預訓練。
RoBERTa是BERT的一個改進版本,對文本表示、訓練模式和訓練語料庫進行了細微的調整。最初的BERT模型是在英語維基百科和圖書語料庫上訓練的,而RoBERTa則是在大約160GB的新聞文章和網絡文本上訓練的。RoBERTa在表示文本的方式上也有所不同,它使用Byte Pair Encoder (BPE)分詞器。與BERT的WordPiece分詞器相比,BPE更擅長處理詞彙表外的單詞,因此它適合於具有不同詞彙表的在線文本。與BERT類似,我們使用了具有1.1億個參數的較小版本。
DistilBERT 是 BERT 的精煉版本。在機器學習的背景下,DistilBERT用較大模型(教師)的輸出作為輸入來訓練較小模型(學生)的過程。DistilBERT可以幫助減小模型的大小,同時仍然保持其性能。較小的模型可以防止對下游任務的過度擬合。DistilBERT 使用 BERT-base 的輸出進行訓練,包含的參數減少了 40%,同時仍保留了 BERT-base 大約 97% 的性能。
BERTweet 是 RoBERTa 的修改版本,在 8.5 億條英語推文上進行了預訓練。BERTweet 還具有獨特的標記器和預處理方案來處理推文中常見的元素,例如主題標籤、表情符號和用戶名。
3.0方法
在微調語言模型之前,必須定義一個可學習的任務,並獲得反映該任務概念的數據。我們使用 STIX(結構化威脅信息表達)數據格式作為網絡威脅情報 (CTI)場景的模型,並作為識別感興趣的信息類型的起點。使用現有和已建立的框架不僅可以節省時間和精力,還有助於促進通過結構化和非結構化數據獲得的信息之間的兼容性。STIX 由許多域對象(例如,威脅參與者、攻擊模式、惡意軟件)以及屬性和對象之間的關係組成。其中兩個域對象在這裡特別感興趣,威脅參與者和入侵集。前者代表威脅背後的行為者(例如個人、團體、組織),而後者是威脅本身的更抽象的表示。然而,它們都與命名實體有關。雖然從理論上講,差異是明確定義的,但這並不能保證它在野外收集的數據中得到很好的反映。基於這一觀察,決定從現在開始,威脅參與者的研究對象應涵蓋 STIX 威脅參與者和 STIX 入侵集的概念。通過定義任務,可以製作相關數據集(第 3.1 節)並訓練機器學習模型(第 3.2 節)。
3.1製作數據集
原始數據是通過Twitter的API收集的,基於一組與網絡相關的通用關鍵詞,如「網絡」和「惡意軟件」。這將生成大量且高度不均衡的數據集,其中只有一小部分實例與威脅行動者相關。有監督的機器學習需要有標籤的數據,在這種情況下,推文中提到威脅行動者的正面例子,以及沒有提及的反面例子。數據的手工標註通常非常耗時,因此在將機器學習應用於特定任務的過程中可能會成為一個阻礙。相反,我們選擇探索使用基於規則的自然語言處理(NLP)技術以偽自動方式注釋數據的可能性(第3.1.1節),並結合人工監督的數據清理工作(第3.1.2節)。我們只使用tweet的文本內容,而不使用元數據。
3.1.1 偽自動注釋
基於規則的自然語言處理(NLP)技術依賴於手工定義的語言模式,因此相對簡單和有限。然而,與數據驅動的技術相反,它們的好處是不需要預先使用任何數據。因此,它們作為一種開始數據收集和探索新數據的快速方法是有價值的。對於威脅行動者,基於規則的自然語言處理(NLP)是一種有效的工具,用於查找提及姓名已知的行動者的信息。因此,我們能夠自動將下載的推文分類為兩類,文本包含已知威脅參與者的名稱,文本中不包含的。雖然這種注釋方法無疑節省了時間和精力,但它也增加了標籤不準確的風險。任何包含(僅)未知威脅行動者的推文,即沒有「在名單上」的名字,將成為虛假反面例子。當已知威脅參與者的名稱也具有其他含義並在不同的環境中使用時,將創建假陽性示例。
3.1.2數據清理
最初的偽自動注釋有很高的誤報率。例如,像「不要忘記我們的鉑(Platinum)網絡星期一特賣」這樣的文本會被貼上積極的標籤,因為文字Cyber(一個Twitter流的關鍵字)和鉑(Platinum)(也是一個威脅人員的名字)。為了減少這個問題的影響,我們首先手動檢查一個積極推文的子集。基於這些錯誤的例子,我們構造了額外的基於單詞的過濾規則來消除重複出現的錯誤。
此外,大量的網絡推文是由自動轉發網絡相關新聞文章的Twitter賬戶產生的。因此,我們的初始數據集包含引用同一篇原始文章但由不同賬戶生成的多條tweet。這類推文通常都是一樣的——唯一不同的是他們引用了多少原始文章,使用了多少標籤,以及任何url的格式。這些幾乎重複的推文組的大小,以下稱為重複組,範圍從2到15。在訓練和評估過程中,這些重複的群體會造成各種各樣的問題。它們可使不太常見的威脅行動者占據所有樣本的很大一部分,因此可能會對這些推文過度擬合模型。類似地,如果評估集包含許多重複項,它可能會使評估結果產生偏差。
我們利用 MinHash ,一種局部敏感散列算法,可以在接近線性的時間內找到相似的文檔來刪除這些重複。我們使用 datasketch python library 中的方法。由於我們正在尋找近乎完美的副本,因此我們使用 k=9 的 shingle 大小。如果兩條推文的 Jaccard 相似度超過 0.4 的 shingle ,我們將它們視為重複。為了找到一條推文的所有重複項,我們將數據集中的推文概念化為一個圖,其中推文是節點,如果兩條推文是重複的,則它們是連接的。然後我們通過使用深度優先搜索遍歷圖來找到所有連接的組件,並且只保留每個連接組件中最長的推文,丟棄剩餘的推文。
最後,我們清理每個tweet的內容。一些令人分心的元素——超鏈接、用戶名和電子郵件地址——被替換為相應的屏蔽標籤,因為它們不包含與任務相關的信息。類似地,表情符號也被轉換成文字描述,例如👍👍被轉換成:thumbs_up。這使得詞彙中沒有表情符號的模型能夠理解角色的情緒。
3.2微調語言模型
本文中提到的查找指定威脅參與者的任務分為兩個子任務。第一個,我們稱之為威脅行動者檢測,是一個二元分類任務。模型的目標是確定給定的文本(tweet)是否提到了威脅行動者。第二個任務(我們稱之為威脅參與者提取)的目標是識別威脅參與者的名稱。
3.2.2數據分割
在威脅行動者環境中使用機器學習的目的是獲得自動發現文本中提到的新的威脅行動者的能力。因此,我們希望避免模型只記住訓練數據中威脅參與者的實際名稱的情況。我們還希望確保評估反映了模型泛化到以前未見過的威脅參與者名稱的能力。為此,我們構造了數據的訓練、驗證和測試分組,以便在多個分組中不會出現威脅參與者的名稱。在我們的數據集中,威脅行動者具有冪定律分布——一小部分威脅行動者構成了大部分正面例子。為了創建分組,我們根據數據集中出現的頻率對威脅參與者進行排序。對於訓練分組,我們選擇最頻繁的威脅行動者和他們對應的推文,直到我們獲得至少80%的所有正面推文。從剩餘的威脅參與者中,我們繼續選擇最頻繁的,直到我們達到至少10%的所有積極推文的驗證分割。然後將剩餘的威脅行為體用於測試分組。任何包含兩個或更多角色的推文將被刪除,以防止重疊。由此產生的訓練分組包括16個不同的行為者,驗證分組6個,測試分組48個。總共使用了大約3300條積極的推文(通過清理過程,這一數字減少到現在的8,000條)。
3.2.3繼續訓練
除了 BERTweet,我們的預訓練語言模型是在語料庫上預訓練的,這些語料庫與我們的網絡推文目標域幾乎沒有相似之處。因此,這些模型在對我們的數據進行微調時可能會發生域轉移,從而導致它們表現不佳。解決這個問題的一種方法是繼續進行預訓練。這個想法是繼續對從目標域採樣的新數據集進行無監督預訓練。這種持續的預訓練將模型調整到目標域,從而減少了模型在後續微調期間經歷的域偏移。
出於這個原因,從下載的網絡推文中抽取了用於繼續預訓練的額外數據。再次使用之前描述的數據清理方法,並過濾掉與注釋數據集重疊的推文。為了研究預訓練集的大小如何影響下游性能,我們編譯了兩個不同大小的數據集——一個有 25000 條推文,另一個有 250000 條推文。然後,我們為四種語言模型中的每一種生成了三個不同的實例,一個沒有額外的預訓練,一個用於每個預訓練數據集。掩碼語言模型目標被用作預訓練目標。
3.2.4威脅主體檢測
威脅參與者檢測的任務包括對一條推文是否包含一個(或多個)威脅參與者的提及進行分類。我們用2.2.2節中描述的數據分割來訓練每個語言模型。從下載的網絡推特集合中抽樣了每一個分組的反面例子。為了防止過度擬合到一個小的負樣本集,我們在訓練集中使用了4比1的負樣本對正樣本。更大比例的反面訓練會產生非常低的召回率,而更小的比例會增加模型過擬合的風險。對於驗證集和測試集,正例和反例之間的分布保持均勻。
3.2.5威脅主體提取
威脅參與者提取是一個標籤級別的分類任務,其中每個標籤要麼是威脅參與者名稱的一部分,要麼不是。對於標籤級注釋,將對tweet進行標籤化,並為與已知威脅參與者名稱重疊的標籤給予正面標籤。訓練類似於檢測任務,除了在標籤輸出和最後的分類器層之間有一個額外的退出層。由於時間的限制,對於這個任務,我們只使用RoBERTa語言模型,因為它的標記器是提取正確標記的最簡單的工具。為了降低任務的難度,我們假設模型在推理過程中接收到的每條推文至少包含一個威脅行動者,因此在訓練過程中只包含這類推文。我們認為這種簡化是合理的,因為威脅參與者檢測模型旨在解決過濾掉提到威脅參與者的tweet的任務。
3.2.6訓練和超參數調優
作為訓練transformer的標準,我們從一個熱身階段開始——學習速率初始化為接近0,並不斷增加,直到n步之後達到最大學習速率。我們還使用線性學習速率衰減,即學習速率在每一步之後都下降,直到它達到0。所有模型實例都為一個epoch進行了微調。我們在四個參數上執行超參數調優——權重衰減因子、熱身步數、最大梯度範數和最大學習速率。對於提取任務,我們也為最終的分類層尋找最優的輟學率。我們使用貝葉斯優化方法來研究參數space。對於每個模型,我們執行50次迭代,並選擇在驗證集中達到最高Fl-score的模型。
作為訓練 Transformer 的標準,我們從一個預熱階段開始——學習率被初始化為接近 0 並增加,直到在 n 步後達到最大學習率。我們還使用線性學習率衰減,其中學習率在每一步之後都會降低,直到達到 0。所有模型實例都針對單個 epoch 進行微調。我們對四個參數進行超參數調整——權重衰減因子、預熱步驟數、最大梯度範數和最大學習率。對於提取任務,我們還搜索最終分類層的最優丟失率。我們使用貝葉斯優化來探索參數空間。對於每個模型,我們執行 50 次迭代,並選擇在驗證集上獲得最高 F1 分數的模型。
4.0結果
兩組不同的數據被用來評估模型的性能。第一個是用於訓練的偽自動標註數據的保留區,這是機器學習領域的一種常見做法。這項評估在第4.1節中描述。第二個是在稍後的時間點收集的一組數據,因此不與第一個重疊。對於第二組數據,評估是在手工應用標籤方面進行的,如章節4.2所述。
4.1偽自動標註數據的計算
我們評估了每種語言模型((和預訓練條件)在我們的保留測試集中對威脅行動者檢測任務的性能。結果如表4-1所示,使用的指標是精度、查全率和Fl-score(這是精度和查全率的調和平均值)。我們注意到,所有模型在每個指標上的性能大致相似。在推特和網絡文本(BERTweet和RoBERTa)上預先訓練的模型似乎有一點優勢,特別是在召回方面。額外的預訓練的效果可以忽略不計,也可以略顯積極。關於Fl-value的最佳模型是在250K條推文上預訓練的RoBERTa模型。然而,在沒有任何額外的預訓練的情況下,BERTweet具有最高的準確率,同時仍然能夠實現合理的召回。
表4-1威脅參與者檢測任務對偽自動標註數據的評估結果
威脅行動者提取任務的結果(精度、召回率和標籤級別的Fl-score)如表4-2所示。在這裡,我們注意到額外的預訓練有一個更明顯的積極效果,在沒有預訓練和完全前訓練之間,f -score增加了5個百分點。我們觀察到低召回率的兩個可能原因。首先,該模型難以處理威脅參與者邊界,例如,長威脅參與者名稱中的最後幾個標記經常被忽略。其次,該模型經常忽略標籤中提到的威脅行動者,這一點更難檢測,因為幾乎沒有周圍的語言環境來幫助該模型。
表4-2威脅行動者抽取任務對偽自動標註數據的評估結果
4.2手工標註評價
作為對偽自動注釋數據集評估的補充,通過手動注釋對基於 RoBERTa 的模型(對 250k 網絡相關推文進行額外預訓練)進行額外評估,其中手動應用的標籤與檢測和提取模型的結果。對一組 800 條新下載的推文進行了注釋,每條推文都由三個人閱讀,他們將其分類為正面或反面,並(在正面情況下)記錄威脅者的姓名。多數票決定了最終的分類標籤。對此數據執行的唯一數據清理是手動刪除重複項。
檢測任務的評估結果如表4-3所示。規模閾值表明某些(從0到1)分析文本的模型必須確實提到威脅行為者被視為一個積極的例子(在評價pseudo-automatically注釋數據閾值0.5)中使用。使用的指標還是精確度、召回率和f1分數。人工標註的數據被採樣,在閾值為0.5時,從檢測模型中進行正預測和反面預測之間的平衡。這種分布與自然分布明顯不同,在我們的網絡相關推文流中,只有非常小的一部分包含威脅行動者。
表4-3:對不同閾值的威脅行動者檢測任務進行手工標註的評估結果
威脅參與者提取模型為文本中的每個標籤返回一個值,指示該標籤成為威脅參與者名稱一部分的概率。此標籤級信息可用於生成由原始文本中的完整單詞組成的名稱建議。這些名稱建議(威脅行動者)候選人,可以通過對機器學習結果或多或少的嚴格條件獲得。在這裡,我們測試了四組這樣的條件,所有這些條件都考慮了文本包含威脅參與者(檢測閾值)的確定性和單個標籤成為威脅參與者名稱一部分的概率。候選類型candH、candm和cand使用0.9、0.75和的檢測閾值分別為0.5。候選類型candr也使用閾值0.5,但必須在每個文本中至少找到一個候選。在候選類型之間,標籤級概率的條件也不同。
將得到的候選對象與人工記錄的威脅參與者名稱進行比較,結果如表4-4所示。精度、召回率和Fl-score指標是在整個手工標註的推文集合上計算的。我們還引入了一個額外的度量,我們稱之為I-precision。這是只考慮那些注釋者共同認為提到了威脅行動者的tweet的精確度。這並不能反映提取模型在現實中的性能,但可以讓我們了解在理想條件下,即與完美的檢測模型相結合時,提取模型的性能如何。
表4-4:對威脅行動者抽取任務進行人工標註的評估結果
檢測任務的結果與基於偽自動標註數據的結果有顯著差異(閾值為0.5)。特別是在準確率上有很大的下降,而召回率卻略有提高。抽取任務的結果沒有直接的可比性,但低正確率和高查全率的趨勢是一致的。I-precision值明顯較高,說明檢測模型的低精度是提取模型精度非常低的主要原因。
為了向模型的性能添加更多的透視圖,我們進行了一個額外的評估,這意味着在一個專門構建的儀錶板的幫助下,反映更多的用戶類條件(參見圖4-1)。
圖4-1:為人工評估機器學習模型而設計的儀錶盤。它顯示了在選定的時間間隔內,被分類為包含具有不同閾值的威脅參與者的tweet的百分比(餅圖),以及威脅參與者候選的前10個列表。
在兩周的時間裡,機器學習模型下載並分析了一批新的Twitter數據。然後在24小時的14個數據間隔中對結果進行研究。對於每個間隔,將推文分類為正的比例記錄下來。每種候選類型的前10個最常見的威脅參與者候選人被手動分類為以下類別:威脅參與者、惡意軟件、組織、人、首字母縮略詞、其他。這些類別被選擇來涵蓋我們根據經驗知道在錯誤分類中常見的命名實體的類型。人工分類前10個候選對象的結果如圖4-2所示,對於每個候選類型和類別,顯示了每個時間間隔(即每個類別14個數據點)命中次數的分布情況。
圖4-2:每種威脅actor候選類型(candH、candM、candz、cande) top10列表中,每種實體類別每24小時命中次數分布。
閾值為0.5時,推文被分類為正的比例在4.0% - 8.4%之間變化,整個時間段的平均值為5.4%。換句話說,即使閾值很低,也有將近95%的推文被過濾掉了。由於自然分布非常不平衡,這是一個好的跡象,這意味着模型比訓練數據更接近正反之間的真實分布。這對於早期高召回的跡象也是令人鼓舞的,因為它們沒有被大量的積極分類明顯地解釋掉。
對於概率要求最嚴格的 candH,我們看到前 10 名中實際威脅參與者的平均數量最高,為 2.4(其他候選類型的平均數都在 2 左右)。對於所有候選類型,威脅參與者數量的中位數為 2。所有類型在 14 個間隔中至少有 1 個有 0 個威脅參與者,candH 在一個間隔內最多有 6 個,candM 最多有 5 個,另外兩個最多有 4 個。關於與其他實體類別的混淆,所有的模式都是相同的 候選類型。該模型最常見的特定錯誤是將惡意軟件的名稱誤認為是威脅參與者的名稱。這並不奇怪,因為這些實體類型的語言環境可能非常相似甚至相同——即使是人類讀者也可能需要背景知識來區分它們。另一類是最普遍的一類,但沒有發現其他錯誤類別。
5.0討論
對helout測試集的評價在準確率和召回率方面都得到了很好的結果,而第二次評價的結果表明,準確率嚴重不足。數據收集、注釋和訓練的額外迭代可能會提高性能。合理的高召回率表明,檢測模型能夠對推文進行相對有效的過濾,其中大部分有趣的推文(在本例中是那些提到威脅行動者的推文)被保留,而大量不相關的推文可以被自動丟棄。提取模型提供的大多數威脅參與者候選人是不準確的,無論候選人類型如何,但前10個列表通常包括一到兩個相關的建議。在半自動分析中,這可能在某種程度上是有用的。提高提取任務性能的一種可能的方法是利用現有的通用命名實體識別(NER)模型,或作為微調的起點,或作為與我們的模型一起的集成安排。
不同評估的結果提供了一些關於將機器學習和語言模型應用於沒有可用數據集或建立評估基準的特定領域和小生境問題的可能性和挑戰的見解。
兩次評估結果之間的巨大差異表明,基礎數據集代表了完整數據流的不同部分(考慮到它們是在不同的時間點以不同的方式構建的事實,這不足為奇),並且模型 還沒有學會概括到足夠大的程度。這強調了思考如何對數據集進行採樣的重要性,尤其是當數據的分布必須明顯偏離自然分布時。
基於規則的NLP技術對於數據的偽自動標註是非常有用的工具,這需要數據驅動的方法,如監督機器學習。如果使用嘈雜的數據源(如Twitter),則可能需要進行一些手動數據清理,以使數據可用。重要的是,不僅要考慮數據集中包含了什麼,還要考慮是否缺少什麼。在威脅行動者的情況下,我們確定的一個潛在的改進路徑是在訓練數據中包括「更好的」反面例子,例如通過專門收集提到命名惡意軟件的tweet,以幫助模型更好地區分不同類型的實體。
另一個重要的問題是,機器學習問題是否應該被劃分為子任務,如果是,如何劃分。在本例中,我們使用兩個模型,一個用於檢測,一個用於提取威脅行動者。還可以進一步分割任務,例如,在鏈的開頭添加一個經過訓練的模型,以確定一條推文是否與網絡安全有關。這樣的模型可能會過濾掉不相關的主題,比如「網絡欺凌」,從而使威脅行動者檢測模型的任務更加明確(因為它可以更多地關注威脅行動者與其他網絡安全相關概念的區別)。然而,在鏈中過早地依賴模型會帶來早期錯誤傳播的風險,並且會使模型更加混亂。我們的提取模型顯示了這種症狀,因為它的性能(不出所料)似乎受到檢測模型的低精度的負面影響。在這種情況下,另一種選擇是讓提取模型在訓練時看到大量的反面例子,從而有希望教會它更好地處理未來的檢測模型錯誤。一般來說,當涉及到任務設計時,新的應用程序可能需要一些實驗。此外,作為子任務的迭代注釋數據和再訓練模型可能是有益的。
如何評估模型性能並不總是顯而易見的,不同的評估可能產生不同的結果,如威脅行動者的情況所示。在缺乏既定的基準的情況下,不太可能有針對小範圍問題的基準,人們必須自己為評價設定框架。重要的是要考慮一個特定的評估方案可能會引入哪些潛在的偏差和錯誤來源。不僅查看經典的度量標準,而且還可以考慮如何使用結果以及這對性能需求意味着什麼,這也可能是有益的。
6.0結論
通過基於規則的自然語言處理(NLP)技術,使用數據的偽自動注釋,對網絡威脅行動者檢測和提取環境中的語言模型進行微調,似乎是可行的。然而,二次評估的結果表明,可能需要數據收集、注釋和訓練的多次迭代。在更類似用戶的條件下進行的評價表明,這些模型能夠產生在半自動分析中可能有用的結果。
作者:
瑞典斯德哥爾摩-瑞典國防研究機構(FOI)
漢娜·莉婭hanna.lilja@foi.se
盧卡斯·倫德馬克 lukas.lundmark@foi.se
上述資料原文及機器翻譯已上傳小編知識星球
長按識別下面的二維碼可加入星球
裡面已有近千篇資料可供下載
越早加入越便宜
續費五折優惠