自定义模型中的按需型推理
通过按需型 (OD) 推理,您可以在自定义 Amazon Nova 模型上运行推理,而无需维护预置吞吐量端点。这有助于优化成本,并有效地进行扩展。使用按需型推理时,您将根据使用量付费,使用量以输入和输出的 Token 数计量。
兼容性要求
应满足以下兼容性要求:
-
Amazon Nova Pro、Lite 及 Micro 的自定义理解模型支持 OD 推理。Nova 自定义内容生成模型不支持 OD 推理。
-
2025 年 7 月 16 日后训练的 Amazon Nova 自定义理解模型支持 OD 推理。2025 年 7 月 16 日前训练的自定义模型与 OD 推理不兼容。
-
Amazon Bedrock 自定义:使用 Amazon Bedrock 自定义进行自定义的模型,以及使用 Amazon Bedrock 从教师式模型中蒸馏的学生式模型都支持 OD 推理。
-
SageMaker AI 自定义:对于在 SageMaker AI 中进行自定义的模型,只有模型托管在 Amazon Bedrock 上时才支持 OD 推理功能,且仅限于参数高效微调 (PEFT) 模型。这包括直接偏好优化 + PEFT。全秩微调模型不支持 OD 推理。
模型训练和推理
2025 年 7 月 16 日后,当使用 PEFT 在 Amazon Bedrock 或 SageMaker AI 上训练新的自定义 Amazon Nova Pro、Lite 或 Micro 模型时,该模型将自动与预置的按需型推理选项兼容。您可以在部署模型时选择首选的推理方法。
要在 2025 年 7 月 16 日后训练的模型中使用 OD 推理,需完成以下步骤:
-
使用 Amazon Bedrock 自定义 API 或 SageMaker AI 定制 API 创建新的微调任务。
-
使用 CreateCustomModel API 将新训练的模型部署至 Amazon Bedrock。
-
使用 CustomModelDeployment API 进行部署,从而进行按需型推理。
速率限制
以下的每分钟请求数 (RPM) 以及每分钟 Token 数 (TPM) 限制适用于按需型推理请求:
Base Model for Custom Model | RPM per Custom Model Deployment | TPM per Custom Model Deployment |
---|---|---|
Amazon Nova Micro | 200 | 400,000 |
Amazon Nova Lite | 200 | 400,000 |
Amazon Nova Pro | 20 | 80,000 |
要详细了解 Amazon Nova 的可用配额,请参阅Amazon Nova 的配额。
延迟
基础模型调用和适配器之间预计会出现 20-55% 的端到端延迟差(即到第一个令牌的时间 (TTFT))。确切的延迟值因模型大小而异,并与行业标准一致。