close

點擊下方卡片,關注「新機器視覺」公眾號

重磅乾貨,第一時間送達


一、機器學習簡述

機器學習是通過學習現有的訓練數據,獲得」知識「,然後把該」知識「應用到新的數據中。機器學習學習現有的訓練數據主要分為四個步驟:(一)計算訓練數據的特徵,(二)選擇學習模型,如邏輯斯蒂回歸,支持向量機或決策樹等模型;(三)確定代價函數,代價函數最小化對應的模型為最佳模型,相同的訓練數據不同的代價函數可能會得到不同的最佳模型;(四)確定評價準則,根據評價準則選擇模型最優結果對應的參數(參數擇優)。機器學習的本質是應用統計學習,統計學習就是計算機系統通過運用數據及統計方法提高系統性能的機器學習。

大部分機器學習可以分為監督學習(supervised learning)和非監督學習(unsupervised learning),監督學習和非監督學習的區別在於是否事先知道訓練樣本的結果(若值為名義型(nominal),則為分類;值為數值型(numeric),則為回歸)。

二、學習算法

模型最優化的過程即是求解代價函數的最小化,學習算法是如何實現代價函數的最小化。

前段時間在學習吳恩達老師的機器學習公開課課程,學習算法採用最多的是隨機梯度下降算法(如吳恩達老師講解的線性回歸、邏輯斯蒂回歸和支持向量機的代價函數最小化)。根據高等數學梯度原理:函數在該點的梯度方向是增長最快的方向,因此梯度下降算法選擇了梯度的反方向,並根據步長(學習率)進行迭代,當滿足實現設置的迭代數量或迭代前後的值小於一定的閾值時,則迭代結束,如下圖。梯度下降算法是學習算法中最簡單的代價函數優化算法,後續公眾號文章將着重介紹各種學習算法的理論推導以及給出python代碼。

三、機器學習任務

機器學習構建模型的步驟大同小異,獲取訓練樣本的特徵構建模型,然後對新輸入的測試數據給出結果。

分類

如下圖,每個手寫數字是28×28的像素圖像,可以用向量x表示該數字圖像的特徵,向量x包含了784維灰度圖像,輸入為特徵向量x,輸出為對應的數字0~9,通過訓練大量的手寫數字集構建分類模型。當輸入新的未知手寫數字的向量x時,模型給出分類結果0~9。

推薦系統

如下圖,數據集中行代表用戶user,列代表物品item,0代表用戶未給物品打分。推薦系統的思想是:(1)計算用戶要評價的物品與用戶已經評分的物品之間的相似度,(2)根據相似度推算出用戶要評價物品的分值。由於用戶的評分數據是稀疏矩陣,奇異值分解(SVD)可以將數據映射為低維空間,然後在低維空間運用推薦系統的思想來對未評價的物品進行評分。

機器學習的應用領域非常廣泛,比如回歸任務,聚類,詞語標註,目標檢測等。還可以通過應用分成三大類,一個是對於圖像的處理,還有一個是對於文本處理和語音,對於圖像比如給圖像着色,找出圖像中的人臉,找出背景圖,識別圖片中的物體,描述一幅圖像等。對於文本處理比如機器翻譯,文本分類,文本的情感分析,文本總結,閱讀理解等。語音可以是語音識別,生成語音等。

四、人工智能(AI)在醫療產業的應用

前段日子參加了在深圳市人才公園舉行的智能醫學研討會,分享下自己比較贊同的關於AI在醫療產業的兩個觀點,(一)獲取醫療樣本數據較難,AI在醫療領域構建模型都是針對小樣本數據,因此對模型的泛化能力提出了挑戰;(二)AI在醫療產業的應用有很多條條框框的限制,如智能篩查癌症系統醫療器械在診斷測試者之前,需要對測試者進行入組判斷,若不滿足診斷條件則不予測試,這極大的限制了AI醫療產品在醫院的推廣。因此廣州某醫院影像中心的教授說未來人工智能在疾病篩查系統不可能完全代替人工篩查,但是人工智能可以在大量耗時的重複工作發揮重要作用,醫生可以把節省下來的時間作學術研究工作。

參考:

《機器學習實戰》 李銳 李鵬等譯

《Pattern Recognition and Machine Learning》 Christopher M.Bishop

《統計學習方法》 李航

https://www.jianshu.com/p/22998509f00c

https://www.cnblogs.com/pinard/p/5970503.html

來源:小白學視覺

本文僅做學術分享,如有侵權,請聯繫刪文。

—THE END—
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()