透過 SageMaker Studio 提交評估任務透過 SageMaker Python SDK 提交您的評估任務

開始使用

透過 SageMaker Studio 提交評估任務

步驟 1：從您的模型卡導覽至評估

自訂模型之後，請從模型卡導覽至評估頁面。

如需開放原始碼自訂模型訓練的資訊：https：//https://docs.aws.amazon.com/sagemaker/latest/dg/model-customize-open-weight-job.html

SageMaker 會在我的模型索引標籤上視覺化您的自訂模型：

選擇檢視最新版本，然後選擇評估：

步驟 2：提交您的評估任務

選擇提交按鈕並提交您的評估任務。這會提交最小的 MMLU 基準測試任務。

如需支援評估任務類型的資訊，請參閱評估類型和任務提交。

步驟 3：追蹤您的評估任務進度

評估步驟索引標籤會追蹤您的評估任務進度：

步驟 4：檢視您的評估任務結果

您的評估任務結果會在評估結果索引標籤中視覺化：

步驟 5：檢視您已完成的評估

您已完成的評估任務會顯示在模型卡的評估中：

透過 SageMaker Python SDK 提交您的評估任務

步驟 1：建立您的 BenchMarkEvaluator

將已註冊的訓練模型、 AWS S3 輸出位置和 MLFlow 資源 ARN 傳遞至 BenchMarkEvaluator ，然後將其初始化。


from sagemaker.train.evaluate import BenchMarkEvaluator, Benchmark  
  
evaluator = BenchMarkEvaluator(  
    benchmark=Benchmark.MMLU,  
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",  
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",  
    mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>",  
    evaluate_base_model=False  
)

步驟 2：提交您的評估任務

呼叫 evaluate()方法以提交評估任務。


execution = evaluator.evaluate()

步驟 3：追蹤您的評估任務進度

呼叫執行wait()方法，以取得評估任務進度的即時更新。


execution.wait(target_status="Succeeded", poll=5, timeout=3600)

步驟 4：檢視您的評估任務結果

呼叫 show_results()方法來顯示您的評估任務結果。


execution.show_results()

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

模型評估任務提交

評估類型和任務提交