本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
為使用無伺服器端點執行推論,您必須向端點傳送 HTTP 請求。您可以使用 InvokeEndpoint API 或 AWS CLI,提出叫用端點的POST
請求。無伺服器調用的最大請求數量和回應承載大小上限為 4 MB。無伺服器端點:
該模型必須下載,並且服務器必須在 3 分鐘內成功回應
/ping
。容器回應
/invocations
的推論請求的逾時時間為 1 分鐘。
調用端點
下列範例會使用適用於 Python 的AWS SDK (Boto3)InvokeEndpoint
,您必須使用 SageMaker Runtime Runtime 做為用戶端。指定下列值:
-
在
endpoint_name
中,使用您要調用的服務中無伺服器端點的名稱。 -
在
content_type
中,在請求內文裡指定輸入資料的 MIME 類型 (例如application/json
)。 -
在
payload
中,使用您的請求有效負載進行推論。您的有效負載應以字節或類似文件的物件為單位。
runtime = boto3.client("sagemaker-runtime")
endpoint_name = "<your-endpoint-name>
"
content_type = "<request-mime-type>
"
payload = <your-request-body>
response = runtime.invoke_endpoint(
EndpointName=endpoint_name,
ContentType=content_type,
Body=payload
)