新機器視覺 - 實操教程｜稱霸Kaggle的十大深度學習技巧－鑽石舞台

點擊下方卡片，關注「新機器視覺」公眾號

重磅乾貨，第一時間送達

作者丨Samuel Lynn-Evans

來源丨量子位

編輯丨極市平台

導讀

是什麼秘訣讓新手們在短期內快速掌握並能構建最先進的DL算法？一位名叫塞繆爾的法國學員總結了十條經驗。

在各種Kaggle競賽的排行榜上，都有不少剛剛進入深度學習領域的程序員，其中大部分有一個共同點：

都上過Fast.ai的課程。

這些免費、重實戰的課程非常鼓勵學生去參加Kaggle競賽，檢驗自己的能力。當然，也向學生們傳授了不少稱霸Kaggle的深度學習技巧。

是什麼秘訣讓新手們在短期內快速掌握並能構建最先進的DL算法？一位名叫塞繆爾（Samuel Lynn-Evans）的法國學員總結了十條經驗。

他這篇文章發表在FloydHub官方博客上，因為除了來自Fast.ai的技巧之外，他還用了FloydHub的免設置深度學習GPU雲平台。

接下來，我們看看他從fast.ai學來的十大技藝：

1. 使用Fast.ai庫

這一條最為簡單直接。

fromfast.aiimport*

Fast.ai庫是一個新手友好型的深度學習工具箱，而且是目前復現最新算法的首要之選。

每當Fast.ai團隊及AI研究者發現一篇有趣論文時，會在各種數據集上進行測試，並確定合適的調優方法。他們會把效果較好的模型實現加入到這個函數庫中，用戶可以快速載入這些模型。

於是，Fast.ai庫成了一個功能強大的工具箱，能夠快速載入一些當前最新的算法實現，如帶重啟的隨機梯度下降算法、差分學習率和測試時增強等等，這裡不逐一提及了。

下面會分別介紹這些技術，並展示如何使用Fast.ai庫來快速使用它們。

這個函數庫是基於PyTorch構建，構建模型時可以流暢地使用。

Fast.ai庫地址：https://github.com/fastai/fastai

2. 使用多個而不是單一學習率

差分學習率（Differential Learning rates）意味着在訓練時變換網絡層比提高網絡深度更重要。

基於已有模型來訓練深度學習網絡，這是一種被驗證過很可靠的方法，可以在計算機視覺任務中得到更好的效果。

大部分已有網絡（如Resnet、VGG和Inception等）都是在ImageNet數據集訓練的，因此我們要根據所用數據集與ImageNet圖像的相似性，來適當改變網絡權重。

在修改這些權重時，我們通常要對模型的最後幾層進行修改，因為這些層被用於檢測基本特徵（如邊緣和輪廓），不同數據集有着不同基本特徵。

首先，要使用Fast.ai庫來獲得預訓練的模型，代碼如下：

fromfastai.conv_learnerimport*#importlibraryforcreatinglearningobjectforconvolutional#networksmodel=VVG16()#assignmodeltoresnet,vgg,orevenyourowncustommodelPATH='./folder_containing_images'data=ImageClassifierData.from_paths(PATH)#createfastaidataobject,inthismethodweusefrom_pathswhere#insidePATHeachimageclassisseparatedintodifferentfolderslearn=ConvLearner.pretrained(model,data,precompute=True)#createalearnobjecttoquicklyutilisestateoftheart#techniquesfromthefastailibrary

創建學習對象之後（learn object），通過快速凍結前面網絡層並微調後面網絡層來解決問題：

learn.freeze()#freezelayersuptothelastone,soweightswillnotbeupdated.learning_rate=0.1learn.fit(learning_rate,epochs=3)#trainonlythelastlayerforafewepochs

當後面網絡層產生了良好效果，我們會應用差分學習率來改變前面網絡層。在實際中，一般將學習率的縮小倍數設置為10倍：

learn.unfreeze()#setrequires_gradstobeTrueforalllayers,sotheycanbeupdatedlearning_rate=[0.001,0.01,0.1]#learningrateissetsothatdeepestthirdoflayershavearateof0.001,#middlelayershavearateof0.01,andfinallayers0.1.learn.fit(learning_rate,epochs=3)#trainmodelforthreeepochwithusingdifferentiallearningrates3. 如何找到合適的學習率

學習率是神經網絡訓練中最重要的超參數，沒有之一，但之前在實際應用中很難為神經網絡選擇最佳的學習率。

Leslie Smith的一篇周期性學習率論文發現了答案，這是一個相對不知名的發現，直到它被Fast.ai課程推廣後才逐漸被廣泛使用。

這篇論文是：Cyclical Learning Rates for Training Neural Networks

https://arxiv.org/abs/1506.01186

在這種方法中，我們嘗試使用較低學習率來訓練神經網絡，但是在每個批次中以指數形式增加，相應代碼如下：

learn.lr_find()#runonlearnobjectwherelearningrateisincreasedexponentiallylearn.sched.plot_lr()#plotgraphoflearningrateagainstiterations

△ 每次迭代後學習率以指數形式增長

同時，記錄每個學習率對應的Loss值，然後畫出學習率和Loss值的關係圖：

learn.sched.plot()#plotsthelossagainstthelearningrate

△ 找出Loss值在下降但仍未穩定的點

通過找出學習率最高且Loss值仍在下降的值來確定最佳學習率。在上述情況中，該值將為0.01。

4. 餘弦退火

在採用批次隨機梯度下降算法時，神經網絡應該越來越接近Loss值的全局最小值。當它逐漸接近這個最小值時，學習率應該變得更小來使得模型不會超調且儘可能接近這一點。

餘弦退火（Cosine annealing）利用餘弦函數來降低學習率，進而解決這個問題，如下圖所示：

△ 餘弦值隨着x增大而減小

從上圖可以看出，隨着x的增加，餘弦值首先緩慢下降，然後加速下降，再次緩慢下降。這種下降模式能和學習率配合，以一種十分有效的計算方式來產生很好的效果。

learn.fit(0.1,1)#Callinglearnfitautomaticallytakesadvantageofcosineannealing

我們可以用Fast.ai庫中的**learn.fit()**函數，來快速實現這個算法，在整個周期中不斷降低學習率，如下圖所示：

△ 在一個需要200次迭代的周期中學習率不斷降低

同時，在這種方法基礎上，我們可以進一步引入重啟機制。

5. 帶重啟的SGD算法

在訓練時，梯度下降算法可能陷入局部最小值，而不是全局最小值。

△ 陷入局部最小值的梯度下降算法

梯度下降算法可以通過突然提高學習率，來「跳出」局部最小值並找到通向全局最小值的路徑。這種方式稱為帶重啟的隨機梯度下降方法（stochastic gradient descent with restarts,SGDR），這個方法在Loshchilov和Hutter的ICLR論文中展示出了很好的效果。

這篇論文是：SGDR: Stochastic Gradient Descent with Warm Restartshttps://arxiv.org/abs/1608.03983

用Fast.ai庫可以快速導入SGDR算法。當調用learn.fit(learning_rate, epochs)函數時，學習率在每個周期開始時重置為參數輸入時的初始值，然後像上面餘弦退火部分描述的那樣，逐漸減小。

每當學習率下降到最小點，在上圖中為每100次迭代，我們稱為一個循環。

cycle_len=1#decidehowmanyepochsittakesforthelearningratetofallto#itsminimumpoint.Inthiscase,1epochcycle_mult=2#attheendofeachcycle,multiplythecycle_lenvalueby2learn.fit(0.1,3,cycle_len=2,cycle_mult=2)#inthiscasetherewillbethreerestarts.Thefirsttimewith#cycle_lenof1,soitwilltake1epochtocompletethecycle.#cycle_mult=2sothenextcyclewithhavealengthoftwoepochs,#andthenextfour.

△ 每個循環所包含的周期都是上一個循環的2倍

利用這些參數，和使用差分學習率，這些技巧是Fast.ai用戶在圖像分類問題上取得良好效果的關鍵。

Fast.ai論壇有個帖子專門討論Cycle_mult和cycle_len函數，地址在這裡：http://forums.fast.ai/t/understanding-cycle-len-and-cycle-mult/9413/8

更多關於學習率的詳細內容可參考這個Fast.ai課程：http://course.fast.ai/lessons/lesson2.html

6. 人格化你的激活函數

Softmax只喜歡選擇一樣東西；

Sigmoid想知道你在[-1, 1]區間上的位置，並不關心你超出這些值後的增加量；

Relu是一名俱樂部保鏢，要將負數拒之門外。

……

以這種思路對待激活函數，看起來很愚蠢，但是安排一個角色後能確保把他們用到正確任務中。

正如fast.ai創始人Jeremy Howard指出，不少學術論文中也把Softmax函數用在多分類問題中。在DL學習過程中，我也看到它在論文和博客中多次使用不當。

7. 遷移學習在NLP問題中非常有效

正如預訓練好的模型在計算機視覺任務中很有效一樣，已有研究表明，自然語言處理（NLP）模型也可以從這種方法中受益。

在Fast.ai第4課中，Jeremy Howard用遷移學習方法建立了一個模型，來判斷IMDB上的電影評論是積極的還是消極的。

這種方法的效果立竿見影，他所達到的準確率超過了Salesforce論文中展示的所有先前模型：https://einstein.ai/research/learned-in-translation-contextualized-word-vectors。

△ 預先存在的架構提供了最先進的NLP性能

這個模型的關鍵在於先訓練模型來獲得對語言的一些理解，然後再使用這種預訓練好的模型作為新模型的一部分來分析情緒。

為了創建第一個模型，我們訓練了一個循環神經網絡（RNN）來預測文本序列中的下個單詞，這稱為語言建模。當訓練後網絡的準確率達到一定值，它對每個單詞的編碼模式就會傳遞給用於情感分析的新模型。

在上面的例子中，我們看到這個語言模型與另一個模型集成後用於情感分析，但是這種方法可以應用到其他任何NLP任務中，包括翻譯和數據提取。

而且，計算機視覺中的一些技巧，也同樣適用於此，如上面提到的凍結網絡層和使用差分學習率，在這裡也能取得更好的效果。

這種方法在NLP任務上的使用涉及很多細節，這裡就不貼出代碼了，可訪問相應課程和代碼。

課程：http://course.fast.ai/lessons/lesson4.html

代碼：https://github.com/fastai/fastai/blob/master/courses/dl1/lesson4-imdb.ipynb

8. 深度學習在處理結構化數據上的優勢

Fast.ai課程中展示了深度學習在處理結構化數據上的突出表現，且無需藉助特徵工程以及領域內的特定知識。

這個庫充分利用了PyTorch中embedding函數，允許將分類變量快速轉換為嵌入矩陣。

他們展示出的技術比較簡單直接，只需將分類變量轉換為數字，然後為每個值分配嵌入向量：

△ 一周中的每一天都嵌入了四個值

在這類任務上，傳統做法是創建虛擬變量，即進行一次熱編碼。與之相比，這種方式的優點是用四個數值代替一個數值來描述每一天，因此可獲得更高的數據維度和更豐富的關係。

這種方法在Rossman Kaggle比賽中獲得第三名，惜敗於兩位利用專業知識來創建許多額外特徵的領域專家。

相關課程：http://course.fast.ai/lessons/lesson4.html

代碼：https://github.com/fastai/fastai/blob/master/courses/dl1/lesson3-rossman.ipynb

這種用深度學習來減少對特徵工程依賴的思路，也被Pinterest證實過。他也提到過，他們正努力通過深度學習模型，期望用更少的工作量來獲得更好的效果。

9. 更多內置函數：Dropout層、尺寸設置、TTA

4月30日，Fast.ai團隊在斯坦福大學舉辦的DAWNBench競賽中，贏得了基於Imagenet和CIFAR10的分類任務。在Jeremy的奪冠總結中，他將這次成功歸功於fast.ai庫中的一些額外函數。

其中之一是Dropout層，由Geoffrey Hinton兩年前在一篇開創性的論文中提出。它最初很受歡迎，但在最近的計算機視覺論文中似乎有所忽略。這篇論文是：

Dropout: A Simple Way to Prevent Neural Networks from Overfitting：

https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf

然而，PyTorch庫使它的實現變得很簡單，用Fast.ai庫加載它就更容易了。

△ 空格表示Dropout函數的作用點

Dropout函數能減弱過擬合效應，因此要在CIFAR-10這樣一個相對較小的數據集上取勝，這點很重要。在創建learn對象時，Fast.ai庫會自動加入dropout函數，同時可使用ps變量來修改參數，如下所示：

learn=ConvLearner.pretrained(model,data,ps=0.5,precompute=True)#createsadropoutof0.5(i.e.halftheactivations)ontestdataset.#Thisisautomaticallyturnedoffforthevalidationset

有一種很簡單有效的方法，經常用來處理過擬合效應和提高準確性，它就是訓練小尺寸圖像，然後增大尺寸並再次訓練相同模型。

#createadataobjectwithimagesofsz*szpixelsdefget_data(sz):tmfs=tfms_from_model(model,sz)#tellswhatsizeimagesshouldbe,additionaltransformationssuch#imageflipsandzoomscaneasilybeaddedheretoodata=ImageClassifierData.from_paths(PATH,tfms=tfms)#createsfastaidataobjectofcreatesizereturndatalearn.set_data(get_data(299))#changesthedatainthelearnobjecttobeimagesofsize299#withoutchangingthemodel.learn.fit(0.1,3)#trainforafewepochsonlargerversionsofimages,avoidingoverfitting

還有一種先進技巧，可將準確率提高若干個百分點，它就是測試時增強（test time augmentation,TTA）。這裡會為原始圖像造出多個不同版本，包括不同區域裁剪和更改縮放程度等，並將它們輸入到模型中；然後對多個版本進行計算得到平均輸出，作為圖像的最終輸出分數，可調用learn.TTA()來使用該算法。

preds,target=learn.TTA()

這種技術很有效，因為原始圖像顯示的區域可能會缺少一些重要特徵，在模型中輸入圖像的多個版本並取平均值，能解決上述問題。

10. 創新力很關鍵

在DAWNBench比賽中，Fast.ai團隊提出的模型不僅速度最快，而且計算成本低。要明白，要構建成功的DL應用，不只是一個利用大量GPU資源的計算任務，而應該是一個需要創造力、直覺和創新力的問題。

本文中討論的一些突破，包括Dropout層、餘弦退火和帶重啟的SGD方法等，實際上是研究者針對一些問題想到的不同解決方式。與簡單地增大訓練數據集相比，能更好地提升準確率。

硅谷的很多大公司有大量GPU資源，但是，不要認為他們的先進效果遙不可及，你也能靠創新力提出一些新思路，來挑戰效果排行榜。

事實上，有時計算力的局限也是一種機會，因為需求是創新的動力源泉。

關於作者

Samuel Lynn-Evans過去10年一直在教授生命科學課程，注意到機器學習在科學研究中的巨大潛力後，他開始在巴黎42學校學習人工智能，想將NLP技術應用到生物學和醫學問題中。

原文：https://blog.floydhub.com/ten-techniques-from-fast-ai/

本文僅做學術分享，如有侵權，請聯繫刪文。

—THE END—

鑽石舞台

鑽石舞台發表在痞客邦留言(0) 人氣()

鑽石舞台

鑽石鑽石亮晶晶

新機器視覺 - 實操教程｜稱霸Kaggle的十大深度學習技巧

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

鑽石舞台

鑽石鑽石亮晶晶

新機器視覺 - 實操教程｜稱霸Kaggle的十大深度學習技巧

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

贊助商連結