【摘要】
越來越多的信息以非結構化文本數據的形式在網上共享,尤其是在社交媒體上,這為補充傳統的網絡威脅情報來源提供了機會。由於人工無法處理如此龐大的數據量,我們探索了一些使用機器學習來協助分析的可能性。我們特別關注檢索與指定威脅行動者相關的信息。通過對現有的語言模型進行微調,以特定的下游任務為基礎,基於偽自動注釋的數據,可以獲得檢測和提取之前未見過的威脅參與者的模型。我們在不同的條件下執行多次評估,其中一些表明模型確實能夠產生在半自動分析設置中有用的結果。此外,我們將此視為將通用語言模型應用於特定領域任務的一個案例研究,並反思了一些更普遍的經驗教訓。