本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
调用无服务器端点
要使用无服务器端点执行推理,必须向端点发送 HTTP 请求。您可以使用 InvokeEndpointAPI 或 AWS CLI,它们会POST
请求调用您的终端节点。无服务器调用的最大请求和响应负载大小为 4 MB。对于无服务器端点:
模型必须下载,服务器必须在 3 分钟内成功响应
/ping
。容器响应
/invocations
推理请求的超时为 1 分钟。
调用端点
以下示例使用适用于 Python 的AWS 软件开发工具包 (Boto3) 来InvokeEndpoint
,您必须使用 SageMaker 运行时运行时作为客户端。指定以下值:
-
对于
endpoint_name
,使用要调用的服务中无服务器端点的名称。 -
对于
content_type
,在请求正文中指定输入数据的 MIME 类型(例如application/json
)。 -
对于
payload
,使用您的请求负载进行推理。您的负载应该采用字节或类似文件的对象形式。
runtime = boto3.client("sagemaker-runtime") endpoint_name = "
<your-endpoint-name>
" content_type = "<request-mime-type>
" payload =<your-request-body>
response = runtime.invoke_endpoint( EndpointName=endpoint_name, ContentType=content_type, Body=payload )