自訂模型的隨需推論

隨需 (OD) 推論可讓您在自訂 Amazon Nova 模型上執行推論，而無需維護佈建的輸送量端點。這可協助您最佳化成本並有效率地擴展。使用隨需推論時，會根據使用量向您收費，以字符計量，包括輸入和輸出。

相容性要求

適用下列相容性要求：

Amazon Nova Pro、Lite 和 Micro 自訂理解模型支援 OD 推論。Nova 自訂內容產生模型不支援 OD 推論。
2025 年 7 月 16 日之後訓練的 Amazon Nova 自訂理解模型支援 OD 推論。在 2025 年 7 月 16 日之前訓練的自訂模型與 OD 推論不相容。
Amazon Bedrock 自訂：OD 推論支援使用 Amazon Bedrock 自訂自訂的模型，以及使用 Amazon Bedrock 從教師模型中提取的學生模型。
SageMaker AI 自訂：對於 SageMaker AI 中自訂的模型，只有在模型託管於 Amazon Bedrock 時，才支援參數效率微調 (PEFT) 模型的 OD 推論。這包括直接偏好設定最佳化和 PEFT。完整排名微調模型不支援 OD 推論。

當您在 2025 年 7 月 16 日之後使用 PEFT 在 Amazon Bedrock 或 SageMaker AI 上訓練新的自訂 Amazon Nova Pro、Lite 或 Micro 模型時，模型會自動與佈建和隨需推論選項相容。您可以在部署模型時選取偏好的推論方法。

若要搭配 2025 年 7 月 16 日之後訓練的模型使用 OD 推論，請完成下列步驟：

下列每分鐘請求 (RPM) 和每分鐘字符 (TPM) 限制適用於隨需推論請求：

Base Model for Custom Model	RPM per Custom Model Deployment	TPM per Custom Model Deployment
Amazon Nova Micro	200	400,000
Amazon Nova Lite	200	400,000
Amazon Nova Pro	20	80,000

若要進一步了解 Amazon Nova 可用的配額，請參閱 Amazon Nova 的配額。

您可以預期基本模型調用與轉接器之間的end-to-end延遲差異（即首次時間字符 (TTFT)) 為 20-55%。確切的延遲值因模型大小而異，且符合業界標準。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

適用於創意內容產生模型的超參數

分配 Amazon Nova 模型