本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
1. 以資料為中心的管理
資料管理是確保訓練、測試和推論中使用的資料受到適當管理、保護和驗證的做法。大規模建置模型時,資料是可實現高模型效能的主要商品。
1.1 資料儲存庫 |
資料儲存庫需要能夠追蹤資料並查看其原始伺服器。新增或移除新資料時,資料儲存庫會在point-in-time復原中記錄這些變更。資料儲存庫應考量標籤資料如何追蹤和處理,以及如何追蹤中繼資料成品。 |
1.2 多樣化資料來源整合 |
視應用程式而定,訓練您的模型可能需要來自許多來源的資料。設計和維護資訊清單,以通知 ML 從業人員可用的資料來源,以及它們如何繫結在一起對於建置模型至關重要。 |
1.3 資料結構描述驗證 |
若要饋送模型資料,訓練資料務必是同質的。對於存放在 Amazon Simple Storage Service (Amazon S3) 等資料湖解決方案或文件資料存放區中的資料,可能需要轉換或其他探索性分析。 |
1.4 資料版本控制和譜系 |
訓練可能用於生產的模型時,您必須能夠重現結果,並擁有可靠的方法來執行電燒研究 |
1.5 標籤工作流程 |
如果專案開始時無法使用已標記的資料,則建立已標記的資料通常是必要的步驟。Amazon SageMaker Ground Truth 等工具需要適當建構輸入資料,而且需要已定義和經過測試的標籤工作。必須使用內部或外部標籤人員。然後,應使用備援標籤或機器學習方法來識別訓練資料集中的極端值或錯誤,來驗證資料。 |
1.6 線上和離線功能儲存 |
ML 系統具有功能存放區或集中式存放區,可存放功能和相關聯的中繼資料,以便重複使用功能或模型輸入。您可以建立線上或離線儲存。針對低延遲、即時推論使用案例使用線上存放區。使用離線存放區進行訓練和批次推論。 |