自定义模型中的按需型推理 - Amazon Nova

自定义模型中的按需型推理

通过按需型 (OD) 推理,您可以在自定义 Amazon Nova 模型上运行推理,而无需维护预置吞吐量端点。这有助于优化成本,并有效地进行扩展。使用按需型推理时,您将根据使用量付费,使用量以输入和输出的 Token 数计量。

兼容性要求

应满足以下兼容性要求:

  • Amazon Nova Pro、Lite 及 Micro 的自定义理解模型支持 OD 推理。Nova 自定义内容生成模型不支持 OD 推理。

  • 2025 年 7 月 16 日后训练的 Amazon Nova 自定义理解模型支持 OD 推理。2025 年 7 月 16 日前训练的自定义模型与 OD 推理不兼容。

  • Amazon Bedrock 自定义:使用 Amazon Bedrock 自定义进行自定义的模型,以及使用 Amazon Bedrock 从教师式模型中蒸馏的学生式模型都支持 OD 推理。

  • SageMaker AI 自定义:对于在 SageMaker AI 中进行自定义的模型,只有模型托管在 Amazon Bedrock 上时才支持 OD 推理功能,且仅限于参数高效微调 (PEFT) 模型。这包括直接偏好优化 + PEFT。全秩微调模型不支持 OD 推理。

模型训练和推理

2025 年 7 月 16 日后,当使用 PEFT 在 Amazon Bedrock 或 SageMaker AI 上训练新的自定义 Amazon Nova Pro、Lite 或 Micro 模型时,该模型将自动与预置的按需型推理选项兼容。您可以在部署模型时选择首选的推理方法。

要在 2025 年 7 月 16 日后训练的模型中使用 OD 推理,需完成以下步骤:

  1. 使用 Amazon Bedrock 自定义 APISageMaker AI 定制 API 创建新的微调任务。

  2. 使用 CreateCustomModel API 将新训练的模型部署至 Amazon Bedrock。

  3. 使用 CustomModelDeployment API 进行部署,从而进行按需型推理。

速率限制

以下的每分钟请求数 (RPM) 以及每分钟 Token 数 (TPM) 限制适用于按需型推理请求:

Base Model for Custom Model RPM per Custom Model Deployment TPM per Custom Model Deployment
Amazon Nova Micro 200 400,000
Amazon Nova Lite 200 400,000
Amazon Nova Pro 20 80,000

要详细了解 Amazon Nova 的可用配额,请参阅Amazon Nova 的配额

延迟

基础模型调用和适配器之间预计会出现 20-55% 的端到端延迟差(即到第一个令牌的时间 (TTFT))。确切的延迟值因模型大小而异,并与行业标准一致。