本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
自訂模型的隨需推論
隨需 (OD) 推論可讓您在自訂 Amazon Nova 模型上執行推論,而無需維護佈建的輸送量端點。這可協助您最佳化成本並有效率地擴展。使用隨需推論時,會根據使用量向您收費,以字符計量,包括輸入和輸出。
相容性要求
適用下列相容性要求:
-
Amazon Nova Pro、Lite 和 Micro 自訂理解模型支援 OD 推論。Nova 自訂內容產生模型不支援 OD 推論。
-
2025 年 7 月 16 日之後訓練的 Amazon Nova 自訂理解模型支援 OD 推論。在 2025 年 7 月 16 日之前訓練的自訂模型與 OD 推論不相容。
-
Amazon Bedrock 自訂:OD 推論支援使用 Amazon Bedrock 自訂自訂的模型,以及使用 Amazon Bedrock 從教師模型中提取的學生模型。
-
SageMaker AI 自訂:對於 SageMaker AI 中自訂的模型,只有在模型託管於 Amazon Bedrock 時,才支援參數效率微調 (PEFT) 模型的 OD 推論。這包括直接偏好設定最佳化和 PEFT。完整排名微調模型不支援 OD 推論。
模型訓練和推論
當您在 2025 年 7 月 16 日之後使用 PEFT 在 Amazon Bedrock 或 SageMaker AI 上訓練新的自訂 Amazon Nova Pro、Lite 或 Micro 模型時,模型會自動與佈建和隨需推論選項相容。您可以在部署模型時選取偏好的推論方法。
若要搭配 2025 年 7 月 16 日之後訓練的模型使用 OD 推論,請完成下列步驟:
-
使用 Amazon Bedrock 自訂 API 或 SageMaker AI 自訂 API 建立新的微調任務。
-
使用 CreateCustomModel API 將新訓練的模型部署至 Amazon Bedrock。
-
使用 CustomModelDeployment API 部署以隨需推論。
速率限制
下列每分鐘請求 (RPM) 和每分鐘字符 (TPM) 限制適用於隨需推論請求:
Base Model for Custom Model | RPM per Custom Model Deployment | TPM per Custom Model Deployment |
---|---|---|
Amazon Nova Micro | 200 | 400,000 |
Amazon Nova Lite | 200 | 400,000 |
Amazon Nova Pro | 20 | 80,000 |
若要進一步了解 Amazon Nova 可用的配額,請參閱 Amazon Nova 的配額。
Latency (延遲)
您可以預期基本模型調用與轉接器之間的end-to-end延遲差異 (即首次時間字符 (TTFT)) 為 20-55%。確切的延遲值因模型大小而異,且符合業界標準。