資料品質

資料品質會自動監控生產環境中的機器學習 (ML) 模型，並在發生資料品質問題時通知您。生產環境中的機器學習 (ML) 模型必須對實際資料進行預測，這些資料不像大多數訓練資料集那樣仔細策劃。在生產環境中，如果模型收到的資料的統計性質偏離其訓練基準資料的本質，則模型的預測準確度會開始下降。Amazon SageMaker Model Monitor 使用規則來偵測資料偏離，並在發生偏離時向您提出警示。若要監控資料品質，請依照下列步驟執行：

啟用資料擷取。這會擷取即時推論端點或批次轉換工作的推論輸入和輸出，並將資料存放在 Amazon S3 中。如需詳細資訊，請參閱資料擷取。
建立基準。在此步驟中，您需執行基準工作來分析您提供的輸入資料集。基準使用 Deequ (採用 Apache Spark 架構的開放原始碼程式庫，用於測量大型資料集的資料品質)，計算每個功能的基準結構描述限制條件和統計資料。如需詳細資訊，請參閱建立基準。
定義和排程資料品質監控工作。如需資料品質監控工作的特定資訊和程式碼範例，請參閱排程資料品質監控工作。如需監控工作的一般資訊，請參閱排定監控工作。
- 選擇性地使用預先處理和後製處理指令碼，來轉換資料品質分析中的資料。如需詳細資訊，請參閱預處理和後處理。
檢視資料品質指標。如需詳細資訊，請參閱統計資料的結構描述 (statistics.json 檔案)。
整合資料品質監控與 Amazon CloudWatch。如需詳細資訊，請參閱CloudWatch Metrics。
解譯監控工作的結果。如需詳細資訊，請參閱解讀結果。
如果您使用的是即時端點，請使用 SageMaker Studio 啟用資料品質監控和視覺化結果。如需詳細資訊，請參閱在 Amazon SageMaker Studio 中以視覺化方式呈現即時端點的結果。

注意

模型監控只會計算表格式資料的模型指標和統計資料。例如，將影像做為輸入並根據該影像輸出標籤的影像分類模型仍可受監控。模型監控能夠計算輸出的指標和統計資料，而不是輸入。

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

從批次轉換工作擷取資料

建立基準