本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
開始使用
透過 SageMaker Studio 提交評估任務
步驟 1:從您的模型卡導覽至評估
自訂模型之後,請從模型卡導覽至評估頁面。
如需開放原始碼自訂模型訓練的資訊:https://https://docs.aws.amazon.com/sagemaker/latest/dg/model-customize-open-weight-job.html
SageMaker 會在我的模型索引標籤上視覺化您的自訂模型:
選擇檢視最新版本,然後選擇評估:
步驟 2:提交您的評估任務
選擇提交按鈕並提交您的評估任務。這會提交最小的 MMLU 基準測試任務。
如需支援評估任務類型的資訊,請參閱 評估類型和任務提交。
步驟 3:追蹤您的評估任務進度
評估步驟索引標籤會追蹤您的評估任務進度:
步驟 4:檢視您的評估任務結果
您的評估任務結果會在評估結果索引標籤中視覺化:
步驟 5:檢視您已完成的評估
您已完成的評估任務會顯示在模型卡的評估中:
透過 SageMaker Python SDK 提交您的評估任務
步驟 1:建立您的 BenchMarkEvaluator
將已註冊的訓練模型、 AWS S3 輸出位置和 MLFlow 資源 ARN 傳遞至 BenchMarkEvaluator ,然後將其初始化。
from sagemaker.train.evaluate import BenchMarkEvaluator, Benchmark evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False )
步驟 2:提交您的評估任務
呼叫 evaluate()方法以提交評估任務。
execution = evaluator.evaluate()
步驟 3:追蹤您的評估任務進度
呼叫 執行wait()方法,以取得評估任務進度的即時更新。
execution.wait(target_status="Succeeded", poll=5, timeout=3600)
步驟 4:檢視您的評估任務結果
呼叫 show_results()方法來顯示您的評估任務結果。
execution.show_results()