本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
步驟 1. 執行 EDA 並開發初始模型
在此步驟中,數據科學家執行探索性數據分析 (EDA),以便瞭解 ML 使用案例和數據。然後,他們開發 ML 模型(例如,分類和迴歸模型)來解決給定用例中的問題。在模型開發過程中,數據科學家經常對輸入和輸出進行假設,例如數據格式、數據生命週期和中間輸出的位置。這些假設應記錄在案,以便在步驟 2 中的單元測試期間可用於驗證。
儘管此步驟側重於模型開發,但數據科學家通常必須編寫最少量的輔助代碼來進行預處理、培訓、評估和推斷。數據科學家應該能夠在開發環境中運行此代碼。我們還建議提供可選的運行時參數,以便可以動態配置此幫助程序代碼,以便在其他環境中運行,而無需進行大量手動更改。這將加快步驟 2 和步驟 3 中模型與管道之間的集成。例如,用於讀取原始數據的代碼應封裝在函數中,以便以一致的方式預處理數據。
我們建議您從一個框架開始,例如scikit-learn