步驟 1. 執行 EDA 並開發初始模型 - AWS 規定指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

步驟 1. 執行 EDA 並開發初始模型

在此步驟中,數據科學家執行探索性數據分析 (EDA),以便瞭解 ML 使用案例和數據。然後,他們開發 ML 模型(例如,分類和迴歸模型)來解決給定用例中的問題。在模型開發過程中,數據科學家經常對輸入和輸出進行假設,例如數據格式、數據生命週期和中間輸出的位置。這些假設應記錄在案,以便在步驟 2 中的單元測試期間可用於驗證。

儘管此步驟側重於模型開發,但數據科學家通常必須編寫最少量的輔助代碼來進行預處理、培訓、評估和推斷。數據科學家應該能夠在開發環境中運行此代碼。我們還建議提供可選的運行時參數,以便可以動態配置此幫助程序代碼,以便在其他環境中運行,而無需進行大量手動更改。這將加快步驟 2 和步驟 3 中模型與管道之間的集成。例如,用於讀取原始數據的代碼應封裝在函數中,以便以一致的方式預處理數據。

我們建議您從一個框架開始,例如scikit-learnXGBoostPyTorchKeras, 或TensorFlow來開發 ML 模型及其輔助代碼。例如,思基特學習是一個用 Python 編寫的免費的 ML 庫。它為對象提供了統一的 API 約定,幷包含四個主要對象-估計器預料變壓器,和模型— 涵蓋輕量級數據轉換、支持標註和要素工程以及封裝預處理和建模步驟。這些對象有助於避免樣板代碼擴散,並防止驗證和測試數據泄漏到訓練數據集中。同樣,每個 ML 框架都有自己的關鍵 ML 工件實現,我們建議您在開發 ML 模型時遵守所選框架的 API 約定。