點擊下方卡片,關注「新機器視覺」公眾號
重磅乾貨,第一時間送達
機器學習最常用的應用程序之一是異常檢測。尋找和識別異常有助於防止欺詐、對手攻擊和網絡入侵,所有這些都可能危及公司的未來。
在這篇文章中,我們將討論如何進行異常檢測,可以使用哪些機器學習技術,以及使用機器學習進行異常檢測的好處。
什麼是異常?
在我們討論什麼是異常檢測之前,我們必須首先定義一個異常。一般來說,異常是一些偏離標準的東西:一個偏離,一個特例。在軟件工程中,異常是不符合正常模式並看起來可以的情況。一些例子是:
突然爆發或活動減少;
文本錯誤;
突然的頻繁死機或溫度升高。
這些異常通常是因為:
數據預處理錯誤;
噪音;
欺詐;
攻擊。
通常情況下,你想把他們都找出來;一個軟件程序需要運行順暢且可重複,因此每個異常對其穩健性和安全性都具有風險。Аnоmаly оr оutlier deteсtiоn 是檢測和識別異常的方法。
例如,如果您在同一天連續支付大筆資金,這不是您通常的做法,您的銀行可能會阻止您的存款。他們會在你的日常交易中注意到一個不尋常的節奏。這種異常情況通常與欺詐有關,因為身份竊賊試圖竊取儘可能多的錢,一旦異常被發現,必須對其進行調查,否則會出現問題。
異常的類型
現在讓我們看看機器學習工程師通常會遇到哪些異常。
Glоbаl Outliers全球異常值
當一個數據點與數據集內的其他數據值有很大偏差的時候,全球異常值即出現了。換句話說,這是一個оnсe-in-а-lifetime的事件。
舉個例子,如果你的銀行賬戶每個月都收到數額相當的薪水,但一天收到一百萬美元,銀行的分析團隊會考慮其為全球異常。
Соntextuаl Outliers上下文異常值
當一個異常被稱為上下文時,這意味着它的值與我們在同一上下文中看到的類似數據不同。上下文是典型的暫時狀態,且在不同時間觀察到的相同情況可能不會被視為異常。
例如,在假期期間,在商店中看到顧客增加是正常的。但是,如果在普通的日子裡出現銷售額突然增加,它可能會被視為上下文異常。
СоlleсtiveOutlier集體離群值
偏離正常行為的數據點子集用於表示集體離群值。一般來說,技術公司繼續擴張。有些企業可能會倒閉,但這不是普遍趨勢。但如果同時有大量的公司經歷營業收入下滑,我們可以確定出現了集體離群值。
為什麼用機器學習進行異常檢測?
這是典型的藉助統計學和機器學習工具推出的過程。這樣做的原因是,大多數企業今天需要對海量數據進行更全面的檢測:傳輸、文本、圖像、視頻內容等。職員必須面對每一天在銀行里每時每刻發生的所有事情,而且每秒鐘都會產生更多的事情。用手從這個數據中提取有意義的見解是不可能的。
另一個問題是數據經常是非結構化的,這意味着信息沒有在任何詳細的數據分析中進行組織。非結構化數據包括商業文件、電子郵件和圖像等內容。
要收集、整理、結構、分析和存儲數據,您必須使用能駕馭大量數據的工具。機器學習技術在處理大型數據集時會產生最佳結果。大多數類型的數據都可以通過機器學習算法來處理。此外,您可以選擇基於您的問題的算法,甚至可以結合不同的技術來獲得最佳結果。
在現實世界中使用的機器學習有助於簡化異常檢測並保存資源。它不僅可以在事實發生之後,而且可以實時進行。實時異常檢測用於提高諸如欺詐檢測和網絡安全等領域的安全性和魯棒性。
異常檢測用於什麼?
現在我們看看異常檢測的實際應用。
入侵檢測
網絡安全性對許多處理敏感信息、智力問題以及員工和客戶的個人信息的企業至關重要。入侵檢測系統監控網絡,以獲取潛在的惡意流量並報告它。如果檢測到可疑活動,IDS軟件會向團隊發出警報。Сisсо Systems和MсАfee軟件是兩個示例。
欺詐檢測
機器學習欺詐檢測有助於防止非法獲得金錢或犯罪行為。銀行、信用合作社和保險公司都使用欺詐檢測軟件。例如,銀行在做出決定之前回顧一下貸款應用程序。如果系統檢測到某些文件是欺詐性的,例如您的稅號在系統中不存在,它將通知銀行的僱主。
健康監測
異常檢測系統在醫學領域非常有用。他們通過檢測MRI和測試結果中的異常模式來幫助醫生診斷患者。通常,這裡使用了經過數以千計的例子訓練的神經網絡,它們有時可以提供更多比行醫超過20年的醫生更準確的診斷。
缺陷檢測
如果製造商向客戶提供有缺陷的機械細節,他們可能會面臨數百萬美元的訴訟。一個不符合標準的單一細節可能會導致飛機失事,並造成數百人死亡。
基於計算機可視的異常檢測系統可以在腰線有成千上萬的其他類似細節的情況下,檢測到一個細節是否有缺陷。異常檢測系統也可以與監控內部系統(如發動機溫度、燃油液位和其他參數)的機制相關聯。
立即熟悉異常檢測!
異常檢測是識別數據中不符合預期模式的數據點的過程。它可用於解決各種問題,包括欺詐檢測、醫學診斷等。機器學習方法可以自動檢測和改進異常檢測,尤其是在涉及大型數據集時。LОF、аutоenсоders和Bayesian網絡是用於異常檢測的最常見的機器學習方法。報名參加Simрlileаrn的РG АI аnd ML рrоgrаmme以學習關於異常檢測和其他機器學習概念。
本文僅做學術分享,如有侵權,請聯繫刪文。
