Persyaratan kompatibilitas Pelatihan model dan inferensi Batas tarif Latensi

Inferensi sesuai permintaan pada Model Kustom

Inferensi sesuai permintaan (OD) memungkinkan Anda menjalankan inferensi pada model Amazon Nova kustom Anda tanpa mempertahankan titik akhir throughput yang disediakan. Ini membantu Anda mengoptimalkan biaya dan menskalakan secara efisien. Dengan inferensi sesuai permintaan, Anda dikenakan biaya berdasarkan penggunaan, diukur dalam token, baik masuk maupun keluar.

Persyaratan kompatibilitas

Persyaratan kompatibilitas berikut berlaku:

Inferensi OD didukung untuk model pemahaman kustom Amazon Nova Pro, Lite, dan Micro. Inferensi OD tidak didukung untuk model pembuatan konten kustom Nova.
Inferensi OD didukung untuk model pemahaman khusus Amazon Nova yang dilatih setelah 16 Juli 2025. Model khusus yang dilatih sebelum 16 Juli 2025 tidak kompatibel dengan inferensi OD.
Kustomisasi Amazon Bedrock: Inferensi OD didukung untuk model yang disesuaikan dengan kustomisasi Amazon Bedrock dan untuk model siswa yang disuling dari model guru dengan Amazon Bedrock.
SageMaker Kustomisasi AI: Untuk model yang disesuaikan dengan SageMaker AI, inferensi OD hanya didukung untuk model Parameter-efficient fine-tuned (PEFT) saat model di-host di Amazon Bedrock. Ini termasuk Optimasi Preferensi Langsung ditambah PEFT. Inferensi OD tidak didukung untuk model fine-tuned peringkat penuh.

Pelatihan model dan inferensi

Saat Anda melatih model Amazon Nova Pro, Lite, atau Micro kustom baru di Amazon Bedrock atau SageMaker AI menggunakan PEFT setelah 16 Juli 2025, model tersebut akan secara otomatis kompatibel dengan opsi inferensi yang disediakan dan sesuai permintaan. Anda dapat memilih metode inferensi pilihan Anda saat menerapkan model Anda.

Untuk menggunakan inferensi OD dengan model yang dilatih setelah 16 Juli 2025, selesaikan langkah-langkah berikut:

Buat pekerjaan fine-tuning baru dengan API kustomisasi Amazon Bedrock atau API kustomisasi AI. SageMaker
Terapkan model yang baru dilatih ke Amazon Bedrock menggunakan API. CreateCustomModel
Terapkan untuk inferensi sesuai permintaan menggunakan API. CustomModelDeployment

Batas tarif

Batas permintaan per menit (RPM) dan token per menit (TPM) berikut berlaku untuk permintaan inferensi sesuai permintaan:

Model Dasar untuk Model Kustom	RPM untuk Penerapan Model Kustom	TPM untuk Penerapan Model Kustom
Amazon Nova Mikro	200	400.000
Amazon Nova Lite	200	400.000
Amazon Nova Pro	20	80.000

Untuk mempelajari lebih lanjut tentang kuota yang tersedia untuk Amazon Nova, lihatKuota untuk Amazon Nova.

Latensi

Anda dapat mengharapkan perbedaan end-to-end latensi (yaitu, Time To First Token (TTFT)) 20-55% antara pemanggilan model dasar dan adaptor. Nilai latensi yang tepat bervariasi menurut ukuran model dan sejalan dengan standar industri.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Hyperparameters untuk model Pembuatan Konten Kreatif

Menyuling model Amazon Nova