本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
步驟 1. 執行 EDA 並開發初始模型
在此步驟中,資料科學家會執行探索性資料分析 (EDA),以了解 ML 使用案例和資料。然後,他們開發 ML 模型 (例如分類和迴歸模型),以解決特定使用案例中的問題。在模型開發期間,資料科學家通常會對輸入和輸出做出假設,例如資料格式、資料生命週期和中繼輸出的位置。這些假設應該記錄下來,以便在步驟 2 的單位測試期間用於驗證。
雖然此步驟著重於模型開發,但資料科學家通常必須撰寫最少量的協助程式程式碼,以進行預先處理、訓練、評估和推論。資料科學家應該能夠在開發環境中執行此程式碼。我們也建議提供選用的執行期引數,以便此協助程式程式碼可以動態設定為在其他環境中執行,而無需大量的手動變更。這將加速步驟 2 和 3 中模型與管道之間的整合。例如,讀取原始資料的程式碼應封裝在 函數中,以便能夠以一致的方式預先處理資料。
我們建議您從 scikit-learn