本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
模型品質監控會將模型所做的預測與 Ground Truth 標籤進行比較,以測量模型的品質。為了這麼做,您可以定期標籤端點或批次轉換工作擷取的資料,並將其上傳到 Amazon S3。
為了讓 Ground Truth 標籤與擷取的預測資料相符,資料集中的每個記錄都必須有唯一識別碼。Ground Truth 資料的每個記錄結構如下:
{
"groundTruthData": {
"data": "1",
"encoding": "CSV"
},
"eventMetadata": {
"eventId": "aaaa-bbbb-cccc"
},
"eventVersion": "0"
}
在 groundTruthData
結構中,eventId
可以是以下其中一項:
-
eventId
– 當使用者調用端點時,會自動產生此 ID。 -
inferenceId
– 呼叫者在調用端點時會提供此 ID。
如果 inferenceId
存在於擷取的資料記錄中,模型監控會使用它與 Ground Truth 記錄合併擷取的資料。您有責任確保 Ground Truth 記錄中的 inferenceId
與擷取記錄中的 inferenceId
相符。如果擷取的資料中不存在 inferenceId
,模型監控會使用擷取的資料記錄中的 eventId
與 Ground Truth 記錄進行比對。
您必須將 Ground Truth 資料上傳至路徑格式與擷取資料相同的 Amazon S3 儲存貯體。
資料格式要求
當您將資料儲存至 Amazon S3 時,必須使用 jsonlines 格式 (.jsonl),並使用下列命名結構儲存。若要進一步了解 jsonline 需求,請參閱 使用輸入和輸出資料。
s3://
amzn-s3-demo-bucket1
/prefix
/yyyy
/mm
/dd
/hh
此路徑中的日期是收集 Ground Truth 標籤的日期,而不必與產生推論的日期相符。
建立並上傳 Ground Truth 標籤後,在建立監控工作時將標籤的位置納入為參數。如果您使用的是 AWS SDK for Python (Boto3),請指定 Ground Truth 標籤的位置做為呼叫 create_model_quality_job_definition
方法的 GroundTruthS3Input
參數S3Uri
欄位來執行此操作。如果您使用的是 SageMaker Python SDK,在呼叫 ModelQualityMonitor
物件的 create_monitoring_schedule
時,指定 Ground Truth 標籤的位置為 ground_truth_input
參數。