Inferensi sesuai permintaan pada Model Kustom - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Inferensi sesuai permintaan pada Model Kustom

Inferensi sesuai permintaan (OD) memungkinkan Anda menjalankan inferensi pada model Amazon Nova kustom Anda tanpa mempertahankan titik akhir throughput yang disediakan. Ini membantu Anda mengoptimalkan biaya dan menskalakan secara efisien. Dengan inferensi sesuai permintaan, Anda dikenakan biaya berdasarkan penggunaan, diukur dalam token, baik masuk maupun keluar.

Persyaratan kompatibilitas

Persyaratan kompatibilitas berikut berlaku:

  • Inferensi OD didukung untuk model pemahaman kustom Amazon Nova Pro, Lite, dan Micro. Inferensi OD tidak didukung untuk model pembuatan konten kustom Nova.

  • Inferensi OD didukung untuk model pemahaman khusus Amazon Nova yang dilatih setelah 16 Juli 2025. Model khusus yang dilatih sebelum 16 Juli 2025 tidak kompatibel dengan inferensi OD.

  • Kustomisasi Amazon Bedrock: Inferensi OD didukung untuk model yang disesuaikan dengan kustomisasi Amazon Bedrock dan untuk model siswa yang disuling dari model guru dengan Amazon Bedrock.

  • SageMaker Kustomisasi AI: Untuk model yang disesuaikan dengan SageMaker AI, inferensi OD hanya didukung untuk model Parameter-efficient fine-tuned (PEFT) saat model di-host di Amazon Bedrock. Ini termasuk Optimasi Preferensi Langsung ditambah PEFT. Inferensi OD tidak didukung untuk model fine-tuned peringkat penuh.

Pelatihan model dan inferensi

Saat Anda melatih model Amazon Nova Pro, Lite, atau Micro kustom baru di Amazon Bedrock atau SageMaker AI menggunakan PEFT setelah 16 Juli 2025, model tersebut akan secara otomatis kompatibel dengan opsi inferensi yang disediakan dan sesuai permintaan. Anda dapat memilih metode inferensi pilihan Anda saat menerapkan model Anda.

Untuk menggunakan inferensi OD dengan model yang dilatih setelah 16 Juli 2025, selesaikan langkah-langkah berikut:

Batas tarif

Batas permintaan per menit (RPM) dan token per menit (TPM) berikut berlaku untuk permintaan inferensi sesuai permintaan:

Model Dasar untuk Model Kustom RPM untuk Penerapan Model Kustom TPM untuk Penerapan Model Kustom
Amazon Nova Mikro 200 400.000
Amazon Nova Lite 200 400.000
Amazon Nova Pro 20 80.000

Untuk mempelajari lebih lanjut tentang kuota yang tersedia untuk Amazon Nova, lihatKuota untuk Amazon Nova.

Latensi

Anda dapat mengharapkan perbedaan end-to-end latensi (yaitu, Time To First Token (TTFT)) 20-55% antara pemanggilan model dasar dan adaptor. Nilai latensi yang tepat bervariasi menurut ukuran model dan sejalan dengan standar industri.