调用无服务器端点

要使用无服务器端点执行推理，必须向端点发送 HTTP 请求。您可以使用 InvokeEndpointAPI 或 AWS CLI，它们会POST请求调用您的终端节点。无服务器调用的最大请求和响应负载大小为 4 MB。对于无服务器端点：

模型必须下载，服务器必须在 3 分钟内成功响应 /ping。
容器响应 /invocations 推理请求的超时为 1 分钟。

调用端点

以下示例使用适用于 Python 的AWS 软件开发工具包 (Boto3) 来调用 API。InvokeEndpoint请注意，与本指南中的其他 API 调用不同InvokeEndpoint，您必须使用 SageMaker 运行时运行时作为客户端。指定以下值：

对于 endpoint_name，使用要调用的服务中无服务器端点的名称。
对于 content_type，在请求正文中指定输入数据的 MIME 类型（例如 application/json）。
对于 payload，使用您的请求负载进行推理。您的负载应该采用字节或类似文件的对象形式。


runtime = boto3.client("sagemaker-runtime")

endpoint_name = "<your-endpoint-name>"
content_type = "<request-mime-type>"
payload = <your-request-body>

response = runtime.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType=content_type,
    Body=payload
)

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

创建端点

更新无服务器端点