Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Inferensi sesuai permintaan pada Model Kustom
Inferensi sesuai permintaan (OD) memungkinkan Anda menjalankan inferensi pada model Amazon Nova kustom Anda tanpa mempertahankan titik akhir throughput yang disediakan. Ini membantu Anda mengoptimalkan biaya dan menskalakan secara efisien. Dengan inferensi sesuai permintaan, Anda dikenakan biaya berdasarkan penggunaan, diukur dalam token, baik masuk maupun keluar.
Persyaratan kompatibilitas
Persyaratan kompatibilitas berikut berlaku:
-
Inferensi OD didukung untuk model pemahaman kustom Amazon Nova Pro, Lite, dan Micro. Inferensi OD tidak didukung untuk model pembuatan konten kustom Nova.
-
Inferensi OD didukung untuk model pemahaman khusus Amazon Nova yang dilatih setelah 16 Juli 2025. Model khusus yang dilatih sebelum 16 Juli 2025 tidak kompatibel dengan inferensi OD.
-
Kustomisasi Amazon Bedrock: Inferensi OD didukung untuk model yang disesuaikan dengan kustomisasi Amazon Bedrock dan untuk model siswa yang disuling dari model guru dengan Amazon Bedrock.
-
SageMaker Kustomisasi AI: Untuk model yang disesuaikan dengan SageMaker AI, inferensi OD hanya didukung untuk model Parameter-efficient fine-tuned (PEFT) saat model di-host di Amazon Bedrock. Ini termasuk Optimasi Preferensi Langsung ditambah PEFT. Inferensi OD tidak didukung untuk model fine-tuned peringkat penuh.
Pelatihan model dan inferensi
Saat Anda melatih model Amazon Nova Pro, Lite, atau Micro kustom baru di Amazon Bedrock atau SageMaker AI menggunakan PEFT setelah 16 Juli 2025, model tersebut akan secara otomatis kompatibel dengan opsi inferensi yang disediakan dan sesuai permintaan. Anda dapat memilih metode inferensi pilihan Anda saat menerapkan model Anda.
Untuk menggunakan inferensi OD dengan model yang dilatih setelah 16 Juli 2025, selesaikan langkah-langkah berikut:
-
Buat pekerjaan fine-tuning baru dengan API kustomisasi Amazon Bedrock atau API kustomisasi AI. SageMaker
-
Terapkan model yang baru dilatih ke Amazon Bedrock menggunakan API. CreateCustomModel
-
Terapkan untuk inferensi sesuai permintaan menggunakan API. CustomModelDeployment
Batas tarif
Batas permintaan per menit (RPM) dan token per menit (TPM) berikut berlaku untuk permintaan inferensi sesuai permintaan:
Model Dasar untuk Model Kustom | RPM untuk Penerapan Model Kustom | TPM untuk Penerapan Model Kustom |
---|---|---|
Amazon Nova Mikro | 200 | 400.000 |
Amazon Nova Lite | 200 | 400.000 |
Amazon Nova Pro | 20 | 80.000 |
Untuk mempelajari lebih lanjut tentang kuota yang tersedia untuk Amazon Nova, lihatKuota untuk Amazon Nova.
Latensi
Anda dapat mengharapkan perbedaan end-to-end latensi (yaitu, Time To First Token (TTFT)) 20-55% antara pemanggilan model dasar dan adaptor. Nilai latensi yang tepat bervariasi menurut ukuran model dan sejalan dengan standar industri.