Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Meningkatkan ketahanan dengan inferensi lintas wilayah
Saat menjalankan inferensi model dalam mode sesuai permintaan, permintaan Anda mungkin dibatasi oleh kuota layanan atau selama waktu penggunaan puncak. Inferensi lintas wilayah memungkinkan Anda mengelola semburan lalu lintas yang tidak direncanakan dengan mulus dengan memanfaatkan komputasi di berbagai tempat. Wilayah AWS Dengan inferensi lintas wilayah, Anda dapat mendistribusikan lalu lintas di beberapa Wilayah AWS, memungkinkan throughput yang lebih tinggi dan ketahanan yang ditingkatkan selama periode permintaan puncak.
Untuk menggunakan inferensi lintas wilayah, Anda menyertakan profil inferensi saat menjalankan inferensi model dengan menentukan ID profil inferensi sebagai modelId
saat mengirim,, Converse InvokeModel, InvokeModelWithResponseStreamatau permintaan. ConverseStream Profil inferensi adalah abstraksi atas kumpulan sumber daya sesuai permintaan dari yang dikonfigurasi. Wilayah AWS Profil inferensi dapat merutekan permintaan inferensi Anda yang berasal dari wilayah sumber Anda ke wilayah lain yang dikonfigurasi dalam kumpulan. Penggunaan inferensi lintas wilayah meningkatkan throughput dan meningkatkan ketahanan dengan merutekan permintaan pemanggilan model secara dinamis di seluruh wilayah yang ditentukan dalam profil inferensi. Faktor routing dalam lalu lintas pengguna, permintaan dan pemanfaatan sumber daya. Permintaan dipenuhi di wilayah tempat asalnya.
Inferensi lintas wilayah saat ini tersedia untuk fitur-fitur berikut:
-
Inferensi model — Anda dapat menggunakan inferensi lintas wilayah saat menjalankan pemanggilan model menggunakan Playgrounds di konsol Amazon Bedrock, atau saat menggunakan,, Converse, dan operasi. InvokeModelInvokeModelWithResponseStreamConverseStream Untuk informasi selengkapnya, lihat Kirim petunjuk dan hasilkan tanggapan dengan inferensi model.
-
Pembuatan respons basis pengetahuan — Anda dapat menggunakan inferensi lintas wilayah saat menghasilkan respons setelah menanyakan basis pengetahuan atau saat mengurai informasi non-tekstual dalam sumber data. Untuk informasi selengkapnya, silakan lihat Kueri basis pengetahuan dan hasilkan respons AI dan Opsi penguraian lanjutan.
-
Evaluasi model — Anda dapat mengirimkan profil inferensi sebagai model untuk mengevaluasi saat mengirimkan pekerjaan evaluasi model. Untuk informasi selengkapnya, lihat Pilih model berkinerja terbaik menggunakan evaluasi Amazon Bedrock.
-
Manajemen cepat - Anda dapat menggunakan inferensi lintas wilayah saat menghasilkan respons untuk prompt yang Anda buat di Manajemen Prompt. Untuk informasi selengkapnya, silakan lihat Buat dan simpan petunjuk yang dapat digunakan kembali dengan manajemen Prompt di Amazon Bedrock
-
Alur prompt - Anda dapat menggunakan inferensi lintas wilayah saat menghasilkan respons untuk prompt yang Anda tentukan sebaris dalam simpul prompt dalam alur prompt. Untuk informasi selengkapnya, lihat Bangun alur kerja AI end-to-end generatif dengan alur Amazon Bedrock Prompt.
Anda juga dapat meningkatkan throughput untuk model dengan membeli Provisioned Throughput. Profil inferensi saat ini tidak mendukung Throughput yang Disediakan.
Perhatikan informasi berikut tentang inferensi lintas wilayah:
-
Tidak ada biaya perutean tambahan untuk menggunakan inferensi lintas wilayah. Harga dihitung berdasarkan wilayah tempat Anda memanggil profil inferensi. Untuk informasi tentang harga, lihat harga Amazon Bedrock
. -
Saat menggunakan inferensi lintas wilayah, throughput Anda dapat mencapai hingga dua kali lipat kuota yang dialokasikan di wilayah tempat profil inferensi berada. Peningkatan throughput hanya berlaku untuk pemanggilan yang dilakukan melalui profil inferensi, kuota reguler masih berlaku jika Anda memilih permintaan pemanggilan model dalam wilayah. Misalnya, jika Anda memanggil AS Anthropic Claude 3 Sonnet profil inferensi di US East (Virginia N.) (us-east-1), throughput Anda dapat mencapai hingga 1.000 permintaan per menit dan 2.000.000 token per menit. Untuk melihat kuota default untuk throughput sesuai permintaan, lihat bagian Kuota Runtime di Kuota untuk Amazon Bedrock atau gunakan konsol Service Quotas.
-
Permintaan inferensi lintas wilayah disimpan di dalam wilayah yang merupakan bagian dari profil inferensi yang digunakan. Misalnya, permintaan yang dibuat dengan profil inferensi UE disimpan di wilayah UE.
Untuk mempelajari lebih lanjut tentang inferensi lintas wilayah, lihat Memulai inferensi lintas wilayah di Amazon Bedrock