本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker AI 提供了以下四个选项来部署模型进行推理。
-
对具有实时、交互式、低延迟要求的推理工作负载进行实时推理。
-
对涉及大型数据集的离线推理进行批量转换。
-
异步推理,用于对需要更长预处理时间的大量输入进行 near-real-time推理。
-
无服务器推理用于在流量激增之间有空闲时间的推理工作负载。
下表汇总了每个推理选项支持的核心平台功能。其中未显示可由框架、自定义 Docker 容器或通过链接不同 AWS 服务提供的功能。
功能 | 实时推理 | 批量转换 | 异步推理 | 无服务器推理 | Docker 容器 |
---|---|---|---|---|---|
自动扩缩支持 | ✓ | 不适用 | ✓ | ✓ | 不适用 |
GPU 支持 | ✓1 | ✓1 | ✓1 | 1P、预构建、BYOC | |
单模型 | ✓ | ✓ | ✓ | ✓ | 不适用 |
多模型端点 | ✓ | k-nn、、Linear Learner XGBoost、RCF、、Ap MXNet ache、、scikit- TensorFlow learn 2 PyTorch | |||
多容器端点 | ✓ | 1P、预构建、扩展预构建、BYOC | |||
串行推理管线 | ✓ | ✓ | 1P、预构建、扩展预构建、BYOC | ||
Inference Recommender | ✓ | 1P、预构建、扩展预构建、BYOC | |||
专用链接支持 | ✓ | ✓ | ✓ | 不适用 | |
数据采集/Model Monitor 支持 | ✓ | ✓ | 不适用 | ||
DLCs 支持的 |
1P、预构建、扩展预构建、BYOC | 1P、预构建、扩展预构建、BYOC | 1P、预构建、扩展预构建、BYOC | 1P、预构建、扩展预构建、BYOC | 不适用 |
支持的协议 | HTTP(S) | HTTP(S) | HTTP(S) | HTTP(S) | 不适用 |
负载大小 | < 6 MB | ≤ 100 MB | ≤ 1 GB | ≤ 4 MB | |
HTTP 分块编码 | 视框架而定,不支持 1P | 不适用 | 视框架而定,不支持 1P | 视框架而定,不支持 1P | 不适用 |
请求超时 | < 60 秒 | 天 | < 1 小时 | < 60 秒 | 不适用 |
部署防护机制:蓝/绿部署 | ✓ | 不适用 | ✓ | 不适用 | |
部署防护机制:滚动部署 | ✓ | 不适用 | ✓ | 不适用 | |
影子测试 | ✓ | 不适用 | |||
扩展为零 | 不适用 | ✓ | ✓ | 不适用 | |
市场模型包支持 | ✓ | ✓ | 不适用 | ||
虚拟专用云支持 | ✓ | ✓ | ✓ | 不适用 | |
多种生产变体支持 | ✓ | 不适用 | |||
网络隔离 | ✓ | ✓ | 不适用 | ||
模型并行供应支持 | ✓3 | ✓ | ✓3 | ✓3 | |
卷加密 | ✓ | ✓ | ✓ | ✓ | 不适用 |
客户 AWS KMS | ✓ | ✓ | ✓ | ✓ | 不适用 |
d 实例支持 | ✓ | ✓ | ✓ | 不适用 | |
inf1 支持 | ✓ | ✓ |
借 SageMaker 助 AI,您可以在单个推理端点后部署单个模型或多个模型以进行实时推理。下表汇总实时推理附带的各种托管选项所支持的核心功能。
功能 | 单模型端点 | 多模型端点 | 串行推理管线 | 多容器端点 |
---|---|---|---|---|
自动扩缩支持 | ✓ | ✓ | ✓ | ✓ |
GPU 支持 | ✓1 | ✓ | ✓ | |
单模型 | ✓ | ✓ | ✓ | ✓ |
多模型端点 | ✓ | ✓ | 不适用 | |
多容器端点 | ✓ | 不适用 | ||
串行推理管线 | ✓ | ✓ | 不适用 | |
Inference Recommender | ✓ | |||
专用链接支持 | ✓ | ✓ | ✓ | ✓ |
数据采集/Model Monitor 支持 | ✓ | 不适用 | 不适用 | 不适用 |
DLCs 支持的 | 1P、预构建、扩展预构建、BYOC | k-nn、、Linear Learner XGBoost、RCF、、Ap MXNet ache、、scikit- TensorFlow learn 2 PyTorch | 1P、预构建、扩展预构建、BYOC | 1P、预构建、扩展预构建、BYOC |
支持的协议 | HTTP(S) | HTTP(S) | HTTP(S) | HTTP(S) |
负载大小 | < 6 MB | < 6 MB | < 6 MB | < 6 MB |
请求超时 | < 60 秒 | < 60 秒 | < 60 秒 | < 60 秒 |
部署防护机制:蓝/绿部署 | ✓ | ✓ | ✓ | ✓ |
部署防护机制:滚动部署 | ✓ | ✓ | ✓ | ✓ |
影子测试 | ✓ | |||
市场模型包支持 | ✓ | |||
虚拟专用云支持 | ✓ | ✓ | ✓ | ✓ |
多种生产变体支持 | ✓ | ✓ | ✓ | |
网络隔离 | ✓ | ✓ | ✓ | ✓ |
模型并行供应支持 | ✓ 3 | ✓ 3 | ||
卷加密 | ✓ | ✓ | ✓ | ✓ |
客户 AWS KMS | ✓ | ✓ | ✓ | ✓ |
d 实例支持 | ✓ | ✓ | ✓ | ✓ |
inf1 支持 | ✓ |
1 Amazon EC2 实例类型的可用性取决于该 AWS 地区。有关特定于的实例的可用性 AWS,请参阅 Amazon SageMaker AI 定价
2 要使用任何其他框架或算法,请使用 SageMaker AI 推理工具包构建支持多模型端点的容器。
3 借助 SageMaker AI,您可以部署大型模型(最大 500 GB)进行推理。可以配置容器运行状况检查和最长 60 分钟的下载超时限额。这将使您有更多时间下载和加载模型及相关资源。有关更多信息,请参阅 SageMaker 用于大型模型推理的 AI 端点参数。您可以使用与 SageMaker AI 兼容的大型模型推理容器