1. 以資料為中心的 - AWS 規定指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

1. 以資料為中心的

資料管理是確保訓練、測試和推論中使用的資料得到妥善管理、保護和驗證的做法。大規模建置模型時,資料是實現高模型效能的主要商品。

1.1 資料儲存庫

資料儲存庫需要追蹤資料並查看其起始點的能力。新增或移除新資料時,資料儲存庫會將這些變更記錄在point-in-time恢復。資料存放庫應該考慮如何追蹤和處理標籤資料,以及追蹤中繼資料人工因素的方式。

1.2 多樣化的數據源集成

視應用程式而定,訓練模型可能需要來自許多來源的資料。設計和維護資訊清單,通知 ML 從業人員可用的資料來源,以及它們如何結合在一起是建置模型的關鍵。

1.3 資料結構描述驗證

若要提供模型資料,重要的是訓練資料是同質的。對於存放在資料湖解決方案 (例如 Amazon 簡單儲存服務 (Amazon S3) 或文件資料存放區中的資料,可能需要轉換或其他探索性分析。

1.4 資料版本控制和歷程

訓練可能在生產環境中使用的模型時,您必須能夠重現結果並擁有可靠的執行方式消融研究以更好地了解整體模型的性能。追蹤訓練資料的狀態對於這種重複性至關重要。工具,例如資料版本控制 (DVC)可以幫助解決這個問題。

1.5 標籤工作流程

在專案開始時無法使用標示資料的情況下,建立已標示的資料通常是必要的步驟。亞馬遜等工具SageMakerGround Truth 要求輸入數據進行適當的結構,並且它們需要定義和經過測試的標籤工作。必須使用內部或外部貼標機的工作人員。然後應該使用冗餘標籤或機器學習方法來識別訓練資料集中的異常值或錯誤來驗證資料。

1.6 線上和離線功能儲存

ML 系統具有功能商店或集中存放功能和相關中繼資料,以便可以重複使用功能或模型輸入。您可以建立線上或離線商店。使用線上商店取得低延遲、即時推論使用案例。使用離線商店進行訓練和批次推論。