可以叫我才哥 - Python解析參數的三種方法－鑽石舞台

今天我們分享的主要目的就是通過在 Python 中使用命令行和配置文件來提高代碼的效率

Let's go!

我們以機器學習當中的調參過程來進行實踐，有三種方式可供選擇。第一個選項是使用 argparse，它是一個流行的 Python 模塊，專門用於命令行解析；另一種方法是讀取 JSON 文件，我們可以在其中放置所有超參數；第三種也是鮮為人知的方法是使用 YAML 文件！好奇嗎，讓我們開始吧！

先決條件

在下面的代碼中，我將使用 Visual Studio Code，這是一個非常高效的集成 Python 開發環境。這個工具的美妙之處在於它通過安裝擴展支持每種編程語言，集成終端並允許同時處理大量 Python 腳本和 Jupyter 筆記本

當然如果你還不知道怎麼配置 VSCode，可以看這裡

手把手將Visual Studio Code變成Python開發神器

數據集，使用的是 Kaggle 上的共享自行車數據集，可以在這裡下載或者在文末獲取

https://www.kaggle.com/datasets/lakshmi25npathi/bike-sharing-dataset

使用 argparse

就像上圖所示，我們有一個標準的結構來組織我們的小項目：

包含我們數據集的名為 data 的文件夾

train.py 文件

用於指定超參數的 options.py 文件

首先，我們可以創建一個文件 train.py，在其中我們有導入數據、在訓練數據上訓練模型並在測試集上對其進行評估的基本程序：

importpandasaspdimportnumpyasnpfromsklearn.ensembleimportRandomForestRegressorfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardScalerfromsklearn.metricsimportmean_squared_error,mean_absolute_errorfromoptionsimporttrain_optionsdf=pd.read_csv('data\hour.csv')print(df.head())opt=train_options()X=df.drop(['instant','dteday','atemp','casual','registered','cnt'],axis=1).valuesy=df['cnt'].valuesX_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2)ifopt.normalize==True:scaler=StandardScaler()X=scaler.fit_transform(X)rf=RandomForestRegressor(n_estimators=opt.n_estimators,max_features=opt.max_features,max_depth=opt.max_depth)model=rf.fit(X_train,y_train)y_pred=model.predict(X_test)rmse=np.sqrt(mean_squared_error(y_pred,y_test))mae=mean_absolute_error(y_pred,y_test)print("rmse:",rmse)print("mae:",mae)

在代碼中，我們還導入了包含在 options.py 文件中的 train_options 函數。後一個文件是一個 Python 文件，我們可以從中更改 train.py 中考慮的超參數：

importargparsedeftrain_options():parser=argparse.ArgumentParser()parser.add_argument("--normalize",default=True,type=bool,help='maximumdepth')parser.add_argument("--n_estimators",default=100,type=int,help='numberofestimators')parser.add_argument("--max_features",default=6,type=int,help='maximumoffeatures',)parser.add_argument("--max_depth",default=5,type=int,help='maximumdepth')opt=parser.parse_args()returnopt

在這個例子中，我們使用了 argparse 庫，它在解析命令行參數時非常流行。首先，我們初始化解析器，然後，我們可以添加我們想要訪問的參數。

這是運行代碼的示例：

pythontrain.py

要更改超參數的默認值，有兩種方法。第一個選項是在 options.py 文件中設置不同的默認值。另一種選擇是從命令行傳遞超參數值：

pythontrain.py--n_estimators200

我們需要指定要更改的超參數的名稱和相應的值。

pythontrain.py--n_estimators200--max_depth7使用 JSON 文件

和前面一樣，我們可以保持類似的文件結構。在這種情況下，我們將 options.py 文件替換為 JSON 文件。換句話說，我們想在 JSON 文件中指定超參數的值並將它們傳遞給 train.py 文件。與 argparse 庫相比，JSON 文件可以是一種快速且直觀的替代方案，它利用鍵值對來存儲數據。下面我們創建一個 options.json 文件，其中包含我們稍後需要傳遞給其他代碼的數據。

{"normalize":true,"n_estimators":100,"max_features":6,"max_depth":5}

如上所見，它與 Python 字典非常相似。但是與字典不同的是，它包含文本/字符串格式的數據。此外，還有一些語法略有不同的常見數據類型。例如，布爾值是 false/true，而 Python 識別 False/True。JSON 中其他可能的值是數組，它們用方括號表示為 Python 列表。

在 Python 中使用 JSON 數據的美妙之處在於，它可以通過 load 方法轉換成 Python 字典：

f=open("options.json","rb")parameters=json.load(f)

要訪問特定項目，我們只需要在方括號內引用它的鍵名：

ifparameters["normalize"]==True:scaler=StandardScaler()X=scaler.fit_transform(X)rf=RandomForestRegressor(n_estimators=parameters["n_estimators"],max_features=parameters["max_features"],max_depth=parameters["max_depth"],random_state=42)model=rf.fit(X_train,y_train)y_pred=model.predict(X_test)使用 YAML 文件

最後一種選擇是利用 YAML 的潛力。與 JSON 文件一樣，我們將 Python 代碼中的 YAML 文件作為字典讀取，以訪問超參數的值。YAML 是一種人類可讀的數據表示語言，其中層次結構使用雙空格字符表示，而不是像 JSON 文件中的括號。下面我們展示 options.yaml 文件將包含的內容：

normalize:Truen_estimators:100max_features:6max_depth:5

在 train.py 中，我們打開 options.yaml 文件，該文件將始終使用 load 方法轉換為 Python 字典，這一次是從 yaml 庫中導入的：

importyamlf=open('options.yaml','rb')parameters=yaml.load(f,Loader=yaml.FullLoader)

和前面一樣，我們可以使用字典所需的語法訪問超參數的值。

最後的想法

配置文件的編譯速度非常快，而 argparse 則需要為我們要添加的每個參數編寫一行代碼。

所以我們應該根據自己的不同情況來選擇最為合適的方式

例如，如果我們需要為參數添加注釋，JSON 是不合適的，因為它不允許注釋，而 YAML 和 argparse 可能非常適合。

好了，這就是今天分享的全部內容，喜歡就點個讚吧~

周蘿蔔

鑽石舞台

鑽石舞台發表在痞客邦留言(0) 人氣()

鑽石舞台

鑽石鑽石亮晶晶

可以叫我才哥 - Python解析參數的三種方法

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

鑽石舞台

鑽石鑽石亮晶晶

可以叫我才哥 - Python解析參數的三種方法

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

贊助商連結