close

Part 1

機器學習概覽



什麼是機器學習?




機器通過分析大量數據來進行學習。比如說,不需要通過編程來識別貓或人臉,它們可以通過使用圖片來進行訓練,從而歸納和識別特定的目標。


機器學習和人工智能的關係




機器學習是一種重在尋找數據中的模式並使用這些模式來做出預測的研究和算法的門類。機器學習是人工智能領域的一部分,並且和知識發現與數據挖掘有所交集。


機器學習的工作方式




選擇數據:將你的數據分成三組:訓練數據、驗證數據和測試數據
模型數據:使用訓練數據來構建使用相關特徵的模型
驗證模型:使用你的驗證數據接入你的模型
測試模型:使用你的測試數據檢查被驗證的模型的表現
使用模型:使用完全訓練好的模型在新數據上做預測
調優模型:使用更多數據、不同的特徵或調整過的參數來提升算法的性能表現


機器學習所處的位置




傳統編程:軟件工程師編寫程序來解決問題。首先存在一些數據→為了解決一個問題,軟件工程師編寫一個流程來告訴機器應該怎樣做→計算機遵照這一流程執行,然後得出結果

統計學:分析師比較變量之間的關係

機器學習:數據科學家使用訓練數據集來教計算機應該怎麼做,然後系統執行該任務。首先存在大數據→機器會學習使用訓練數據集來進行分類,調節特定的算法來實現目標分類→該計算機可學習識別數據中的關係、趨勢和模式

智能應用:智能應用使用人工智能所得到的結果,如圖是一個精準農業的應用案例示意,該應用基於無人機所收集到的數據



機器學習的實際應用




機器學習有很多應用場景,這裡給出了一些示例,你會怎麼使用它?


快速三維地圖測繪和建模:要建造一架鐵路橋,PwC的數據科學家和領域專家將機器學習應用到了無人機收集到的數據上。這種組合實現了工作成功中的精準監控和快速反饋。

增強分析以降低風險:為了檢測內部交易,PwC將機器學習和其它分析技術結合了起來,從而開發了更為全面的用戶概況,並且獲得了對複雜可疑行為的更深度了解。

預測表現最佳的目標:PwC使用機器學習和其它分析方法來評估 Melbourne Cup 賽場上不同賽馬的潛力。


Part 2

機器學習的演化



幾十年來,人工智能研究者的各個「部落」一直以來都在彼此爭奪主導權。現在是這些部落聯合起來的時候了嗎?他們也可能不得不這樣做,因為合作和算法融合是實現真正通用人工智能(AGI)的唯一方式。這裡給出了機器學習方法的演化之路以及未來的可能模樣。


五大流派




符號主義:使用符號、規則和邏輯來表徵知識和進行邏輯推理,最喜歡的算法是:規則和決策樹

貝葉斯派:獲取發生的可能性來進行概率推理,最喜歡的算法是:樸素貝葉斯或馬爾可夫

聯結主義:使用概率矩陣和加權神經元來動態地識別和歸納模式,最喜歡的算法是:神經網絡

進化主義:生成變化,然後為特定目標獲取其中最優的,最喜歡的算法是:遺傳算法

Analogizer:根據約束條件來優化函數(儘可能走到更高,但同時不要離開道路),最喜歡的算法是:支持向量機



演化的階段





1980年代 ——主導流派:符號主義,架構:服務器或大型機,主導理論:知識工程,基本決策邏輯:決策支持系統,實用性有限

1990年代到2000年 ——主導流派:貝葉斯,架構:小型服務器集群,主導理論:概率論,分類:可擴展的比較或對比,對許多任務都足夠好了

2010年代早期到中期 ——主導流派:聯結主義,架構:大型服務器農場,主導理論:神經科學和概率,識別:更加精準的圖像和聲音識別、翻譯、情緒分析等



流派有望合作融合到一起





2010年代末期 ——主導流派:聯結主義+符號主義,架構:許多雲,主導理論:記憶神經網絡、大規模集成、基於知識的推理,簡單的問答:範圍狹窄的、領域特定的知識共享

2020年代+ ——主導流派:聯結主義+符號主義+貝葉斯+……,架構:雲計算和霧計算,主導理論:感知的時候有網絡,推理和工作的時候有規則,簡單感知、推理和行動:有限制的自動化或人機交互

2040年代+ ——主導流派:算法融合,架構:無處不在的服務器,主導理論:最佳組合的元學習,感知和響應:基於通過多種學習方式獲得的知識或經驗採取行動或做出回答


Part 3

機器學習的算法


你應該使用哪種機器學習算法?這在很大程度上依賴於可用數據的性質和數量以及每一個特定用例中你的訓練目標。不要使用最複雜的算法,除非其結果值得付出昂貴的開銷和資源。這裡給出了一些最常見的算法,按使用簡單程度排序。


決策樹

Decision Tree




在進行逐步應答過程中,典型的決策樹分析會使用分層變量或決策節點,例如,可將一個給定用戶分類成信用可靠或不可靠。

優點:擅長對人、地點、事物的一系列不同特徵、品質、特性進行評估。

場景舉例:基於規則的信用評估、賽馬結果預測。


支持向量機

Support Vector Machine




基於超平面(hyperplane),支持向量機可以對數據群進行分類。

優點:支持向量機擅長在變量 X 與其它變量之間進行二元分類操作,無論其關係是否是線性的。

場景舉例:新聞分類、手寫識別。


回歸

Regression




回歸可以勾畫出因變量與一個或多個因變量之間的狀態關係。在這個例子中,將垃圾郵件和非垃圾郵件進行了區分。

優點:回歸可用於識別變量之間的連續關係,即便這個關係不是非常明顯。

場景舉例:路面交通流量分析、郵件過濾。


樸素貝葉斯分類

Naive Bayes Classification




樸素貝葉斯分類器用於計算可能條件的分支概率。每個獨立的特徵都是「樸素」或條件獨立的,因此它們不會影響別的對象。例如,在一個裝有共 5 個黃色和紅色小球的罐子裡,連續拿到兩個黃色小球的概率是多少?從圖中最上方分支可見,前後抓取兩個黃色小球的概率為 1/10。樸素貝葉斯分類器可以計算多個特徵的聯合條件概率。

優點:對於在小數據集上有顯著特徵的相關對象,樸素貝葉斯方法可對其進行快速分類。

場景舉例:情感分析、消費者分類。

隱馬爾可夫模型

Hidden Markov model




隱馬爾可夫過程是完全確定性的 —— 一個給定的狀態經常會伴隨另一個狀態。交通信號燈就是一個例子。相反,隱馬爾可夫模型通過分析可見數據來計算隱藏狀態的發生。隨後,藉助隱藏狀態分析,隱馬爾可夫模型可以估計可能的未來觀察模式。在本例中,高或低氣壓的概率(這是隱藏狀態)可用於預測晴天、雨天、多雲天的概率。

優點:容許數據的變化性,適用於識別(recognition)和預測操作。

場景舉例:面部表情分析、氣象預測。


隨機森林

Random forest




隨機森林算法通過使用多個帶有隨機選取的數據子集的樹(tree)改善了決策樹的精確性。本例在基因表達層面上考察了大量與乳腺癌復發相關的基因,並計算出復發風險。

優點:隨機森林方法被證明對大規模數據集和存在大量且有時不相關特徵的項(item)來說很有用。

場景舉例:用戶流失分析、風險評估。

循環神經網絡

Recurrent neural network




在任意神經網絡中,每個神經元都通過 1 個或多個隱藏層來將很多輸入轉換成單個輸出。循環神經網絡(RNN)會將值進一步逐層傳遞,讓逐層學習成為可能。換句話說,RNN 存在某種形式的記憶,允許先前的輸出去影響後面的輸入。

優點:循環神經網絡在存在大量有序信息時具有預測能力。

場景舉例:圖像分類與字幕添加、政治情感分析。


長短期記憶與門控循環單元神經網絡

LSTM& GRU nerual network




早期的 RNN 形式是會存在損耗的。儘管這些早期循環神經網絡只允許留存少量的早期信息,新近的長短期記憶(LSTM)與門控循環單元(GRU)神經網絡都有長期與短期的記憶。

換句話說,這些新近的 RNN 擁有更好的控制記憶的能力,允許保留早先的值或是當有必要處理很多系列步驟時重置這些值,這避免了「梯度衰減」或逐層傳遞的值的最終 degradation。LSTM 與 GRU 網絡使得我們可以使用被稱為「門(gate)」的記憶模塊或結構來控制記憶,這種門可以在合適的時候傳遞或重置值。

優點:長短期記憶和門控循環單元神經網絡具備與其它循環神經網絡一樣的優點,但因為它們有更好的記憶能力,所以更常被使用。

場景舉例:自然語言處理、翻譯。


卷積神經網絡

convolutional neural network




卷積是指來自後續層的權重的融合,可用於標記輸出層。

優點:當存在非常大型的數據集、大量特徵和複雜的分類任務時,卷積神經網絡是非常有用的。

場景舉例:圖像識別、文本轉語音、藥物發現。

來源:網絡
版權歸原作者所有,如有侵權,請聯繫刪除。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()