カスタムモデルでのオンデマンド推論 - Amazon Nova

カスタムモデルでのオンデマンド推論

オンデマンド (OD) 推論を使用すると、プロビジョニングされたスループットエンドポイントを維持することなく、カスタムの Amazon Nova モデルで推論を実行できます。これにより、コストを最適化し、効率的にスケールできるようになります。オンデマンド推論では、入出力の両方のトークンで測定された使用量に基づいて課金されます。

互換性の要件

次の互換性の要件が適用されます。

  • OD 推論は、Amazon Nova Pro、Lite、および Micro のカスタム理解モデルでサポートされています。OD 推論は、Nova カスタムコンテンツ生成モデルではサポートされていません。

  • OD 推論は、2025 年 7 月 16 日以降にトレーニングされた Amazon Nova カスタム理解モデルでサポートされています。2025 年 7 月 16 日より前にトレーニングされたカスタムモデルは、OD 推論と互換性がありません。

  • Amazon Bedrock カスタマイズ: OD 推論は、Amazon Bedrock カスタマイズでカスタマイズされたモデルと、Amazon Bedrock で教師モデルから蒸留された学生モデルでサポートされています。

  • SageMaker AI カスタマイズ: SageMaker AI でカスタマイズされたモデルの場合、OD 推論は、モデルが Amazon Bedrock でホストされているときのパラメータ効率の高いファインチューニング (PEFT) モデルでのみサポートされます。これには、直接選好最適化と PEFT が含まれます。OD 推論は、フルランクのファインチューニングされたモデルではサポートされていません。

モデルトレーニングおよび推論

2025 年 7 月 16 日以降、PEFT を使用して Amazon Bedrock または SageMaker AI で新しいカスタム Amazon Nova Pro、Lite、または Micro モデルをトレーニングすると、モデルはプロビジョニングされた推論オプションとオンデマンド推論オプションの両方と自動的に互換性を持つようになります。モデルをデプロイする際、お好みの推論方法を選択できます。

2025 年 7 月 16 日以降にトレーニングされたモデルで OD 推論を使用するには、次の手順を実行します。

  1. Amazon Bedrock カスタマイズ API または SageMaker AI カスタマイズ API を使用して、新しいファインチューニングジョブを作成します。

  2. CreateCustomModel API を使用して、新しくトレーニングされたモデルを Amazon Bedrock にデプロイします。

  3. CustomModelDeployment API を使用してオンデマンド推論用にデプロイします。

レート制限

オンデマンド推論リクエストには、次の 1 分あたりのリクエスト数 (RPM) と 1 分あたりのトークン数 (TPM) の制限が適用されます。

Base Model for Custom Model RPM per Custom Model Deployment TPM per Custom Model Deployment
Amazon Nova Micro 200 400,000
Amazon Nova Lite 200 400,000
Amazon Nova Pro 20 80,000

Amazon Nova で使用できるクォータの詳細については、「Amazon Nova のクォータ」を参照してください。

レイテンシー

ベースモデル呼び出しとアダプター間では、エンドツーエンドのレイテンシー差 (つまり、Time to First Token (TTFT)) が 20~55% になることが予想されます。正確なレイテンシー値はモデルサイズによって異なり、業界標準に準拠しています。