自訂模型的隨需推論 - Amazon Nova

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自訂模型的隨需推論

隨需 (OD) 推論可讓您在自訂 Amazon Nova 模型上執行推論,而無需維護佈建的輸送量端點。這可協助您最佳化成本並有效率地擴展。使用隨需推論時,會根據使用量向您收費,以字符計量,包括輸入和輸出。

相容性要求

適用下列相容性要求:

  • Amazon Nova Pro、Lite 和 Micro 自訂理解模型支援 OD 推論。Nova 自訂內容產生模型不支援 OD 推論。

  • 2025 年 7 月 16 日之後訓練的 Amazon Nova 自訂理解模型支援 OD 推論。在 2025 年 7 月 16 日之前訓練的自訂模型與 OD 推論不相容。

  • Amazon Bedrock 自訂:OD 推論支援使用 Amazon Bedrock 自訂自訂的模型,以及使用 Amazon Bedrock 從教師模型中提取的學生模型。

  • SageMaker AI 自訂:對於 SageMaker AI 中自訂的模型,只有在模型託管於 Amazon Bedrock 時,才支援參數效率微調 (PEFT) 模型的 OD 推論。這包括直接偏好設定最佳化和 PEFT。完整排名微調模型不支援 OD 推論。

模型訓練和推論

當您在 2025 年 7 月 16 日之後使用 PEFT 在 Amazon Bedrock 或 SageMaker AI 上訓練新的自訂 Amazon Nova Pro、Lite 或 Micro 模型時,模型會自動與佈建和隨需推論選項相容。您可以在部署模型時選取偏好的推論方法。

若要搭配 2025 年 7 月 16 日之後訓練的模型使用 OD 推論,請完成下列步驟:

  1. 使用 Amazon Bedrock 自訂 APISageMaker AI 自訂 API 建立新的微調任務。

  2. 使用 CreateCustomModel API 將新訓練的模型部署至 Amazon Bedrock。

  3. 使用 CustomModelDeployment API 部署以隨需推論。

速率限制

下列每分鐘請求 (RPM) 和每分鐘字符 (TPM) 限制適用於隨需推論請求:

Base Model for Custom Model RPM per Custom Model Deployment TPM per Custom Model Deployment
Amazon Nova Micro 200 400,000
Amazon Nova Lite 200 400,000
Amazon Nova Pro 20 80,000

若要進一步了解 Amazon Nova 可用的配額,請參閱 Amazon Nova 的配額

Latency (延遲)

您可以預期基本模型調用與轉接器之間的end-to-end延遲差異 (即首次時間字符 (TTFT)) 為 20-55%。確切的延遲值因模型大小而異,且符合業界標準。