取得推論建議

推論建議任務會在建議的執行個體類型或無伺服器端點上執行一組負載測試。推論建議任務會使用效能指標，這些指標是以您在模型版本註冊期間提供的範例資料為基礎的負載測試。

注意

在建立 Inference Recommender 建議任務之前，請確定您已符合必要條件。

以下內容示範如何使用 Amazon SageMaker 推論建議程式，使用、和 Amazon SageMaker Studio 經典版和主控台 AWS SDK for Python (Boto3) AWS CLI，根據您的模型類型建立推論建議 SageMaker

建立推論建議

使用或或以互動方式使用 Studio 典型 AWS SDK for Python (Boto3) 或主控台 AWS CLI，以程式設計方式建立推論建議。 SageMaker 指定推論建議的工作名稱、 AWS IAM角色ARN、輸入組態，以及在模型登錄中註冊模型ARN時的模型套件，或是您在「必要條件」區段中建立模型時的模型名稱和ContainerConfig字典。

AWS SDK for Python (Boto3)

使用CreateInferenceRecommendationsJobAPI開始推論建議工作。將推論建議工作的 JobType 欄位設為 'Default'。此外，請提供下列項目：

IAM角色的 Amazon 資源名稱 (ARN)，可讓推論建議程式代表您執行任務。為 RoleArn 欄位定義此項目。
模型套件ARN或型號名稱。推論建議程式支援一個型號套件ARN或型號名稱作為輸入。請指定下列其中一項：
- 您在模型登錄中註冊模型時所建立ARN的版本化模型套件。 SageMaker 在 InputConfig 欄位中為 ModelPackageVersionArn 定義此項目。
- 您建立的模型名稱。在 InputConfig 欄位中為 ModelName 定義此項目。此外，請提供 ContainerConfig 字典，其中包含需要提供模型名稱的必要欄位。在 InputConfig 欄位中為 ContainerConfig 定義此項目。在 ContainerConfig 中，您也可以選擇性地將 SupportedEndpointType 欄位指定為 RealTime 或 Serverless。如果您指定此欄位，Inference Recommender 只會傳回該端點類型的建議。如果您未指定此欄位，Inference Recommender 會傳回兩種端點類型的建議。
JobName 欄位的 Inference Recommender 推薦任務的名稱。推論推薦人工作名稱在 AWS 區域內及您的帳戶中必須是唯一的 AWS 。

匯入 AWS SDK for Python (Boto3) 封裝，並使用用 SageMaker 戶端類別建立用戶端物件。如果您遵循先決條件區段中的步驟，請僅指定下列其中一項：

選項 1：如果您想要使用模型套件建立推論建議工作ARN，請將模型套件群組儲存ARN在名為model_package_arn的變數中。
選項 2：如果您想要使用模型名稱和 ContainerConfig 建立推論建議任務，並將模型名稱儲存在名為 model_name 的變數中，且將 ContainerConfig 字典儲存在名為 container_config 變數中。


# Create a low-level SageMaker service client.
import boto3
aws_region = '<INSERT>'
sagemaker_client = boto3.client('sagemaker', region_name=aws_region) 

# Provide only one of model package ARN or model name, not both.
# Provide your model package ARN that was created when you registered your 
# model with Model Registry 
model_package_arn = '<INSERT>'
## Uncomment if you would like to create an inference recommendations job with a
## model name instead of a model package ARN, and comment out model_package_arn above
## Provide your model name
# model_name = '<INSERT>'
## Provide your container config 
# container_config = '<INSERT>'

# Provide a unique job name for SageMaker Inference Recommender job
job_name = '<INSERT>'

# Inference Recommender job type. Set to Default to get an initial recommendation
job_type = 'Default'

# Provide an IAM Role that gives SageMaker Inference Recommender permission to 
# access AWS services
role_arn = 'arn:aws:iam::<account>:role/*'

sagemaker_client.create_inference_recommendations_job(
    JobName = job_name,
    JobType = job_type,
    RoleArn = role_arn,
    # Provide only one of model package ARN or model name, not both. 
    # If you would like to create an inference recommendations job with a model name,
    # uncomment ModelName and ContainerConfig, and comment out ModelPackageVersionArn.
    InputConfig = {
        'ModelPackageVersionArn': model_package_arn
        # 'ModelName': model_name,
        # 'ContainerConfig': container_config
    }
)

請參閱 Amazon SageMaker API 參考指南，以取得可傳遞給的選用和必要引數的完整清單CreateInferenceRecommendationsJob。

AWS CLI

使用create-inference-recommendations-jobAPI開始推論建議工作。將推論建議工作的 job-type 欄位設為 'Default'。此外，請提供下列項目：

可讓 Amazon SageMaker 推論建議程式代表您執行任務的IAM角色的 Amazon 資源名稱 (ARN)。為 role-arn 欄位定義此項目。
模型套件ARN或型號名稱。推論建議程式支援一個型號套件ARN或型號名稱作為輸入。請指定下列其中一項：
- 您在「模型登錄」中註冊模型時所建立ARN的版本化模型套件。在 input-config 欄位中為 ModelPackageVersionArn 定義此項目。
- 您建立的模型名稱。在 input-config 欄位中為 ModelName 定義此項目。此外，請提供 ContainerConfig 字典，其中包含需要提供模型名稱的必要欄位。在 input-config 欄位中為 ContainerConfig 定義此項目。在 ContainerConfig 中，您也可以選擇性地將 SupportedEndpointType 欄位指定為 RealTime 或 Serverless。如果您指定此欄位，Inference Recommender 只會傳回該端點類型的建議。如果您未指定此欄位，Inference Recommender 會傳回兩種端點類型的建議。
job-name 欄位的 Inference Recommender 推薦任務的名稱。推論推薦人工作名稱在 AWS 區域內及您的帳戶中必須是唯一的 AWS 。

若要使用模型套件建立推論建議工作ARN，請使用下列範例：


aws sagemaker create-inference-recommendations-job 
    --region <region>\
    --job-name <job_name>\
    --job-type Default\
    --role-arn arn:aws:iam::<account:role/*>\
    --input-config "{
        \"ModelPackageVersionArn\": \"arn:aws:sagemaker:<region:account:role/*>\",
        }"

若要使用模型名稱和 ContainerConfig 建立推論建議任務，請使用下列範例。此範例使用 SupportedEndpointType 欄位來指定我們只想傳回即時推論建議：


aws sagemaker create-inference-recommendations-job 
    --region <region>\
    --job-name <job_name>\
    --job-type Default\
    --role-arn arn:aws:iam::<account:role/*>\
    --input-config "{
        \"ModelName\": \"model-name\",
        \"ContainerConfig\" : {
                \"Domain\": \"COMPUTER_VISION\",
                \"Framework\": \"PYTORCH\",
                \"FrameworkVersion\": \"1.7.1\",
                \"NearestModelName\": \"resnet18\",
                \"PayloadConfig\": 
                    {
                        \"SamplePayloadUrl\": \"s3://{bucket}/{payload_s3_key}\", 
                        \"SupportedContentTypes\": [\"image/jpeg\"]
                    },
                \"SupportedEndpointType\": \"RealTime\",
                \"DataInputConfig\": \"[[1,3,256,256]]\",
                \"Task\": \"IMAGE_CLASSIFICATION\",
            },
        }"

Amazon SageMaker Studio Classic

在工作室傳統版中建立推論建議工作。

在您的工作室典型應用程式中，選擇首頁圖示 ( )。
在「工作室經典」的左側邊欄中，選擇「型號」。
從下拉式清單中選擇模型註冊表，以顯示您已在模型註冊表中註冊的模型。

左側面板顯示模型群組的清單。此清單包含在您帳戶中註冊至模型登錄的所有模型群組，包括在 Studio Classic 之外註冊的模型。
選取您模型群組的名稱。當您選擇模型組時，Studio 經典的右窗格顯示列標題，例如版本和設置。

如果您的模型群組中有一或多個模型套件，您會在「版本」欄中看到這些模型套件的清單。
選擇推論建議程式一欄。
選擇授與推論建議程式存 AWS 取服務權限的IAM角色。您可以建立角色並附加AmazonSageMakerFullAccessIAM受管理的原則來完成此操作。或者，您可以讓工作室經典版為您創建角色。
選擇 Get recommendations (取得建議)。

推論建議最多需要 45 分鐘的時間。

警告
請勿關閉此索引標籤。如果您關閉此索引標籤，就會取消執行個體建議任務。

SageMaker console

執行下列動作，透過 SageMaker 主控台建立執行個體建議工作：

移至主 SageMaker 控台的https://console.aws.amazon.com/sagemaker/。
在左側導覽窗格中，選擇推論，然後選擇推論建議程式。
在推論建議程式任務頁面上，選擇建立任務。
針對步驟 1：模型組態，執行下列動作：
1. 對於任務類型，選擇預設建議程式任務。
2. 如果您使用的是在模型登錄中註冊的 SageMaker模型，請開啟 [從模型登錄中選擇模型] 切換開關，然後執行下列動作：
  1. 從「模型群組」下拉式清單中，選擇模型所在的 SageMaker模型登錄中的模型群組。
  2. 從模型版本下拉式清單中，選擇所需的模型版本。
3. 如果您使用的是在中建立的模型 SageMaker，請關閉 [從模型登錄選擇模型] 切換開關，然後執行下列動作：
  1. 在「模型名稱」欄位中，輸入 SageMaker 模型的名稱。
4. 從 IAMrole 下拉式清單中，您可以選取具有建立執行個體建議工作所需權限的現有 AWS IAM角色。或者，如果您沒有現有角色，可以選擇 [建立新角色] 以開啟角色建立快顯視窗，然後將必要的權限新 SageMaker 增至您建立的新角色。
5. 針對用於基準測試承載的 S3 儲存貯體，請輸入您範例承載存檔的 Amazon S3 路徑，其中應包含 Inference Recommender 用於在不同執行個體類型上對模型進行基準測試的範例承載檔案。
6. 針對裝載內容MIME類型，輸入範例承載資料的類型。
7. (選擇性) 如果您關閉了從模型登錄中選擇模型切換並指定 SageMaker 模型，則對於容器組態，請執行下列動作：
  1. 在網域下拉式清單中，選取模型的機器學習領域，例如電腦視覺、自然語言處理或機器學習。
  2. 在 [架構] 下拉式清單中，選取容器的架構，例如 TensorFlow 或XGBoost。
  3. 針對架構版本，請輸入容器映像的架構版本。
  4. 在最近的模型名稱下拉式清單中，選取大部分與您自己的模型相符的預先訓練模型。
  5. 針對任務下拉式清單，選取模型完成的機器學習任務，例如影像分類或迴歸。
8. （可選）對於使用 SageMaker Neo 進行模型編譯，您可以為使用 SageMaker Neo 編譯的模型配置建議工作。針對資料輸入組態，請以類似 {'input':[1,1024,1024,3]} 的格式輸入模型的正確輸入資料形式。
9. 選擇下一步。
針對步驟 2：執行個體和環境參數，請執行下列操作：
1. (選用) 針對選取執行個體進行基準測試，您最多可以選取 8 個要進行基準測試的執行個體類型。如未選取任何執行個體，Inference Recommender 會考量所有執行個體類型。
2. 選擇 Next (下一步)。
針對步驟 3：任務參數，請執行下列動作：
1. (選用) 針對工作名稱欄位，輸入執行個體建議任務的名稱。當您建立工作時，會在此名稱的結尾 SageMaker 附加時間戳記。
2. (選用) 針對工作描述，輸入該任務的描述。
3. (選擇性) 在「加密金鑰」下拉式清單中，依名稱選擇 AWS KMS 金鑰，或輸入金鑰ARN以加密資料。
4. (選用) 針對最長測試持續時間，請輸入您希望每個測試執行的秒數上限。
5. (選用) 針對每分鐘調用數上限，請輸入端點在停止建議任務之前每分鐘可達到的請求數量上限。達到此限制後， SageMaker 結束工作。
6. (選用) 針對 P99 模型延遲閾值 (ms)，輸入模型延遲百分位數 (以毫秒為單位)。
7. 選擇 Next (下一步)。
針對步驟 4：檢閱任務，檢閱您的組態，然後選擇提交。

取得您的推論建議任務結果

使用 AWS SDK for Python (Boto3)、Studio 典型或 SageMaker 主控台，以程式設計方式收集推論建議工作的結果。 AWS CLI

AWS SDK for Python (Boto3)

推論建議完成後，您可以使用 DescribeInferenceRecommendationsJob 來取得任務詳細資料和建議。提供建立推論建議任務時所使用的任務名稱。


job_name='<INSERT>'
response = sagemaker_client.describe_inference_recommendations_job(
                    JobName=job_name)

列印回應物件。先前的程式碼範例會將回應儲存在名為的變數中response。


print(response['Status'])

這會傳JSON回類似下列範例的回應。請注意，此範例顯示建議的即時推論執行個體類型 (如需顯示無伺服器推論建議的範例，請參閱此範例之後的範例)。


{
    'JobName': 'job-name', 
    'JobDescription': 'job-description', 
    'JobType': 'Default', 
    'JobArn': 'arn:aws:sagemaker:region:account-id:inference-recommendations-job/resource-id', 
    'Status': 'COMPLETED', 
    'CreationTime': datetime.datetime(2021, 10, 26, 20, 4, 57, 627000, tzinfo=tzlocal()), 
    'LastModifiedTime': datetime.datetime(2021, 10, 26, 20, 25, 1, 997000, tzinfo=tzlocal()), 
    'InputConfig': {
                'ModelPackageVersionArn': 'arn:aws:sagemaker:region:account-id:model-package/resource-id', 
                'JobDurationInSeconds': 0
                }, 
    'InferenceRecommendations': [{
            'Metrics': {
                'CostPerHour': 0.20399999618530273, 
                'CostPerInference': 5.246913588052848e-06, 
                'MaximumInvocations': 648, 
                'ModelLatency': 263596
                }, 
            'EndpointConfiguration': {
                'EndpointName': 'endpoint-name', 
                'VariantName': 'variant-name', 
                'InstanceType': 'ml.c5.xlarge', 
                'InitialInstanceCount': 1
                }, 
            'ModelConfiguration': {
                'Compiled': False, 
                'EnvironmentParameters': []
                }
         }, 
         {
            'Metrics': {
                'CostPerHour': 0.11500000208616257, 
                'CostPerInference': 2.92620870823157e-06, 
                'MaximumInvocations': 655, 
                'ModelLatency': 826019
                }, 
            'EndpointConfiguration': {
                'EndpointName': 'endpoint-name', 
                'VariantName': 'variant-name', 
                'InstanceType': 'ml.c5d.large', 
                'InitialInstanceCount': 1
                }, 
            'ModelConfiguration': {
                'Compiled': False, 
                'EnvironmentParameters': []
                }
            }, 
            {
                'Metrics': {
                    'CostPerHour': 0.11500000208616257, 
                    'CostPerInference': 3.3625731248321244e-06, 
                    'MaximumInvocations': 570, 
                    'ModelLatency': 1085446
                    }, 
                'EndpointConfiguration': {
                    'EndpointName': 'endpoint-name', 
                    'VariantName': 'variant-name', 
                    'InstanceType': 'ml.m5.large', 
                    'InitialInstanceCount': 1
                    }, 
                'ModelConfiguration': {
                    'Compiled': False, 
                    'EnvironmentParameters': []
                    }
            }], 
    'ResponseMetadata': {
        'RequestId': 'request-id', 
        'HTTPStatusCode': 200, 
        'HTTPHeaders': {
            'x-amzn-requestid': 'x-amzn-requestid', 
            'content-type': 'content-type', 
            'content-length': '1685', 
            'date': 'Tue, 26 Oct 2021 20:31:10 GMT'
            }, 
        'RetryAttempts': 0
        }
}

前幾行提供推論建議任務本身的相關資訊。這包括工作名稱ARN、角色以及建立和刪除時間。

InferenceRecommendations 字典包含 Inference Recommender 推論建議的清單。

EndpointConfiguration巢狀字典包含執行個體類型 (InstanceType) 建議，以及在建議工作期間使用的端點和變體名稱 (部署的 AWS 機器學習模型)。您可以使用端點和變體名稱在 Amazon CloudWatch 事件中進行監控。如需更多資訊，請參閱監控 Amazon SageMaker 與 Amazon CloudWatch。

Metrics巢狀字典包含即時端點的估計每小時成本 (CostPerHour)、即時端點的預估每個推論成本 (CostPerInference)、傳送至端點的預期每分鐘InvokeEndpoint要求數目上限 (MaxInvocations)，以及模型延遲 (ModelLatency)，這是模型回應的時間間隔 (以微秒為單位) 的資訊。 SageMaker模型延遲包含傳送請求和從模型容器擷取回應的本機通訊時間，以及在容器中完成推論的時間。

下列範例顯示設定為傳回無伺服器推論建議之推論建議任務的 InferenceRecommendations 回應部分：


"InferenceRecommendations": [ 
      { 
         "EndpointConfiguration": { 
            "EndpointName": "value",
            "InitialInstanceCount": value,
            "InstanceType": "value",
            "VariantName": "value",
            "ServerlessConfig": {
                "MaxConcurrency": value,
                "MemorySizeInMb": value
            }
         },
         "InvocationEndTime": value,
         "InvocationStartTime": value,
         "Metrics": { 
            "CostPerHour": value,
            "CostPerInference": value,
            "CpuUtilization": value,
            "MaxInvocations": value,
            "MemoryUtilization": value,
            "ModelLatency": value,
            "ModelSetupTime": value
         },
         "ModelConfiguration": { 
            "Compiled": "False",
            "EnvironmentParameters": [],
            "InferenceSpecificationName": "value"
         },
         "RecommendationId": "value"
      }
   ]

您可以解讀無伺服器推論的建議，類似於即時推論的結果，但不包括 ServerlessConfig，它會告訴您具有指定 MemorySizeInMB 和於 MaxConcurrency = 1 的無伺服器端點傳回之指標。若要增加端點上可能的輸送量，請線性地增加 MaxConcurrency 的值。例如，如果推論建議將 MaxInvocations 顯示為 1000，則將 MaxConcurrency 增加到 2 會支援 2000 MaxInvocations。請注意，這僅在某個特定時間點才是準確的，這可能會根據您的模型和程式碼而有所差異。無伺服器建議也會測量指標 ModelSetupTime，以測量在無伺服器端點上啟動電腦資源所需的時間 (以微秒為單位)。如需有關設定無伺服器端點的詳細資訊，請參閱無伺服器推論文件。

AWS CLI

推論建議完成後，您可以使用 describe-inference-recommendations-job 來取得任務詳細資料和建議的執行個體類型。提供建立推論建議任務時所使用的任務名稱。


aws sagemaker describe-inference-recommendations-job\
    --job-name <job-name>\
    --region <aws-region>

類似的JSON響應應類似於下面的例子。請注意，此範例顯示建議的即時推論執行個體類型 (如需顯示無伺服器推論建議的範例，請參閱此範例之後的範例)。


{
    'JobName': 'job-name', 
    'JobDescription': 'job-description', 
    'JobType': 'Default', 
    'JobArn': 'arn:aws:sagemaker:region:account-id:inference-recommendations-job/resource-id', 
    'Status': 'COMPLETED', 
    'CreationTime': datetime.datetime(2021, 10, 26, 20, 4, 57, 627000, tzinfo=tzlocal()), 
    'LastModifiedTime': datetime.datetime(2021, 10, 26, 20, 25, 1, 997000, tzinfo=tzlocal()), 
    'InputConfig': {
                'ModelPackageVersionArn': 'arn:aws:sagemaker:region:account-id:model-package/resource-id', 
                'JobDurationInSeconds': 0
                }, 
    'InferenceRecommendations': [{
            'Metrics': {
                'CostPerHour': 0.20399999618530273, 
                'CostPerInference': 5.246913588052848e-06, 
                'MaximumInvocations': 648, 
                'ModelLatency': 263596
                }, 
            'EndpointConfiguration': {
                'EndpointName': 'endpoint-name', 
                'VariantName': 'variant-name', 
                'InstanceType': 'ml.c5.xlarge', 
                'InitialInstanceCount': 1
                }, 
            'ModelConfiguration': {
                'Compiled': False, 
                'EnvironmentParameters': []
                }
         }, 
         {
            'Metrics': {
                'CostPerHour': 0.11500000208616257, 
                'CostPerInference': 2.92620870823157e-06, 
                'MaximumInvocations': 655, 
                'ModelLatency': 826019
                }, 
            'EndpointConfiguration': {
                'EndpointName': 'endpoint-name', 
                'VariantName': 'variant-name', 
                'InstanceType': 'ml.c5d.large', 
                'InitialInstanceCount': 1
                }, 
            'ModelConfiguration': {
                'Compiled': False, 
                'EnvironmentParameters': []
                }
            }, 
            {
                'Metrics': {
                    'CostPerHour': 0.11500000208616257, 
                    'CostPerInference': 3.3625731248321244e-06, 
                    'MaximumInvocations': 570, 
                    'ModelLatency': 1085446
                    }, 
                'EndpointConfiguration': {
                    'EndpointName': 'endpoint-name', 
                    'VariantName': 'variant-name', 
                    'InstanceType': 'ml.m5.large', 
                    'InitialInstanceCount': 1
                    }, 
                'ModelConfiguration': {
                    'Compiled': False, 
                    'EnvironmentParameters': []
                    }
            }], 
    'ResponseMetadata': {
        'RequestId': 'request-id', 
        'HTTPStatusCode': 200, 
        'HTTPHeaders': {
            'x-amzn-requestid': 'x-amzn-requestid', 
            'content-type': 'content-type', 
            'content-length': '1685', 
            'date': 'Tue, 26 Oct 2021 20:31:10 GMT'
            }, 
        'RetryAttempts': 0
        }
}

前幾行提供推論建議任務本身的相關資訊。這包括工作名稱、角色ARN、建立和刪除時間。

InferenceRecommendations 字典包含 Inference Recommender 推論建議的清單。

Metrics巢狀字典包含即時端點的估計每小時成本 (CostPerHour)、即時端點的預估每個推論成本 (CostPerInference)、傳送至端點的預期每分鐘InvokeEndpoint要求數目上限 (MaxInvocations)，以及模型延遲 (ModelLatency)，這是模型需要回應的時間間隔 (毫秒) 的資訊。 SageMaker模型延遲包含傳送請求和從模型容器擷取回應的本機通訊時間，以及在容器中完成推論的時間。

下列範例顯示設定為傳回無伺服器推論建議之推論建議任務的 InferenceRecommendations 回應部分：


"InferenceRecommendations": [ 
      { 
         "EndpointConfiguration": { 
            "EndpointName": "value",
            "InitialInstanceCount": value,
            "InstanceType": "value",
            "VariantName": "value",
            "ServerlessConfig": {
                "MaxConcurrency": value,
                "MemorySizeInMb": value
            }
         },
         "InvocationEndTime": value,
         "InvocationStartTime": value,
         "Metrics": { 
            "CostPerHour": value,
            "CostPerInference": value,
            "CpuUtilization": value,
            "MaxInvocations": value,
            "MemoryUtilization": value,
            "ModelLatency": value,
            "ModelSetupTime": value
         },
         "ModelConfiguration": { 
            "Compiled": "False",
            "EnvironmentParameters": [],
            "InferenceSpecificationName": "value"
         },
         "RecommendationId": "value"
      }
   ]

Amazon SageMaker Studio Classic

推論建議會填入 Studio 傳統版的新推論建議索引標籤中。最多可能需要 45 分鐘，結果才會顯示。此索引標籤包含結果和詳細資訊欄標題。

詳細資訊欄提供推論建議任務的相關資訊，例如推論建議的名稱、建立任務的時間 (建立時間) 等等。它也提供設定資訊，例如每分鐘發生的調用次數上限，以及所使用之 Amazon Resource Name 的相關資訊。

「結果」欄提供「部署目標和SageMaker建議」視窗，您可以在其中根據部署重要性調整結果的顯示順序。您可以使用三個下拉式清單選單，為您的使用案例提供成本、延遲和輸送量的重要性層級。您可以針對每個目標 (成本、延遲和輸送量) 設定重要性層級：最低重要性、低重要性、中等重要性、高重要性或最高重要性。

根據您對每個目標的重要性選擇，推論建議程式會在面板右側的建SageMaker議欄位中顯示其最高的建議，以及每小時的預估成本和推論要求。它也提供預期的模型延遲、調用次數上限以及執行個體數目等相關資訊。如需無伺服器建議，您可以看到並行上限和端點記憶體大小的理想值。

除了顯示的最佳建議之外，您也可以看到在所有執行段落中，Inference Recommender 測試過的所有執行個體處理所顯示的相同資訊。

SageMaker console

您可以執行下列動作，在 SageMaker 主控台中檢視執行個體建議工作：

移至主 SageMaker 控台的https://console.aws.amazon.com/sagemaker/。
在左側導覽窗格中，選擇推論，然後選擇推論建議程式。
在推論建議程式任務頁面上，選擇推論建議任務的名稱。

在工作的詳細資料頁面上，您可以檢視推論建議，這是為您的模型 SageMaker 建議的執行個體類型，如下列螢幕擷取畫面所示。

在本節中，您可以依各種因素比較執行個體類型，例如模型延遲、每小時成本、每個推論的成本、每分鐘調用數。

您也可以在此頁面檢視針對您指定的組態。在「監控」區段中，您可以檢視針對每個執行個體類型記錄的 Amazon CloudWatch 指標。若要深入了解如何解讀這些指標，請參閱解讀結果。

如需解讀建議任務結果的詳細資訊，請參閱解讀建議結果。

停止您的推論建議

如果您錯誤地開始工作或不再需要執行工作，您可能會想要停止目前正在執行的工作。使用StopInferenceRecommendationsJobAPI或使用 Studio 傳統版，以程式設計方式停止您的推論建議推論建議工作。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

獲取即時的潛在執行個體

取得現有端點的推論建議

取得推論建議

注意

建立推論建議

警告

取得您的推論建議任務結果

停止您的推論建議