Gunakan profil inferensi lintas wilayah (ditentukan sistem)

Tingkatkan throughput dengan inferensi lintas wilayah

Dengan inferensi lintas wilayah, Anda dapat memilih profil inferensi lintas wilayah yang terkait dengan geografi tertentu (seperti AS atau UE), atau Anda dapat memilih profil inferensi global. Saat Anda memilih profil inferensi yang terkait dengan geografi tertentu, Amazon Bedrock secara otomatis memilih iklan optimal Wilayah AWS dalam geografi tersebut untuk memproses permintaan inferensi Anda. Dengan profil inferensi global, Amazon Bedrock secara otomatis memilih iklan optimal Wilayah AWS untuk memproses permintaan, yang mengoptimalkan sumber daya yang tersedia dan meningkatkan throughput model.

Saat menjalankan inferensi model dalam mode sesuai permintaan, permintaan Anda mungkin dibatasi oleh kuota layanan atau selama waktu penggunaan puncak. Inferensi Lintas Wilayah memungkinkan Anda mengelola semburan lalu lintas yang tidak direncanakan dengan mulus dengan memanfaatkan komputasi di berbagai tempat. Wilayah AWS Dengan inferensi lintas wilayah, Anda dapat mendistribusikan lalu lintas di beberapa Wilayah AWS, memungkinkan throughput yang lebih tinggi.

Anda juga dapat meningkatkan throughput untuk model dengan membeli Provisioned Throughput. Profil inferensi saat ini tidak mendukung Provisioned Throughput.

Untuk melihat Wilayah dan model yang dapat digunakan untuk menggunakan profil inferensi untuk menjalankan inferensi lintas wilayah, lihat. Wilayah dan model yang Didukung untuk profil inferensi

Profil inferensi lintas wilayah (ditentukan sistem) dinamai menurut model yang mereka dukung dan didefinisikan oleh Wilayah yang mereka dukung. Untuk memahami cara profil inferensi lintas wilayah menangani permintaan Anda, tinjau definisi berikut:

Wilayah Sumber — Wilayah tempat Anda membuat permintaan API yang menentukan profil inferensi.
Wilayah Tujuan — Wilayah tempat layanan Amazon Bedrock dapat merutekan permintaan dari Wilayah sumber Anda.

Saat Anda memanggil profil inferensi lintas wilayah di Amazon Bedrock, permintaan Anda berasal dari Wilayah sumber dan secara otomatis dirutekan ke salah satu Wilayah tujuan yang ditentukan dalam profil tersebut, mengoptimalkan kinerja. Wilayah tujuan untuk profil inferensi Lintas Wilayah Global mencakup semua Wilayah komersial.

catatan

Wilayah tujuan dalam profil inferensi Lintas wilayah dapat menyertakan Wilayah keikutsertaan, yang merupakan Wilayah yang harus Anda aktifkan secara eksplisit di atau tingkat Organisasi. Akun AWS Untuk mempelajari lebih lanjut, lihat Mengaktifkan atau menonaktifkan Wilayah AWS di akun Anda. Saat menggunakan profil inferensi lintas wilayah, permintaan inferensi Anda dapat dialihkan ke salah satu Wilayah tujuan di profil, bahkan jika Anda tidak ikut serta dalam Wilayah tersebut di akun Anda.

Kebijakan Kontrol Layanan (SCPs) dan AWS Identity and Access Management (IAM) bekerja sama untuk mengontrol di mana inferensi lintas wilayah diperbolehkan. Dengan menggunakan SCPs, Anda dapat mengontrol Wilayah Amazon Bedrock mana yang dapat digunakan untuk inferensi, dan menggunakan kebijakan IAM, Anda dapat menentukan pengguna atau peran mana yang memiliki izin untuk menjalankan inferensi. Jika ada Wilayah tujuan di profil inferensi Lintas wilayah yang diblokir di Anda SCPs, permintaan akan gagal meskipun Wilayah lain tetap diizinkan. Untuk memastikan pengoperasian yang efisien dengan inferensi lintas wilayah, Anda dapat memperbarui kebijakan Anda SCPs dan IAM untuk mengizinkan semua tindakan inferensi Amazon Bedrock yang diperlukan (misalnya, bedrock:InvokeModel* ataubedrock:CreateModelInvocationJob) di semua Wilayah tujuan yang disertakan dalam profil inferensi pilihan Anda. Untuk mempelajari lebih lanjut, lihat Mengaktifkan inferensi Amazon Bedrock Lintas wilayah di lingkungan multi-akun.

catatan

Beberapa profil inferensi merutekan ke daerah tujuan yang berbeda tergantung pada sumber Wilayah dari mana Anda menyebutnya. Misalnya, jika Anda menelepon us.anthropic.claude-3-haiku-20240307-v1:0 dari US East (Ohio), itu dapat merutekan permintaan keus-east-1,, atau us-east-2us-west-2, tetapi jika Anda memanggilnya dari US West (Oregon), itu hanya us-east-1 dapat merutekan permintaan ke dan. us-west-2

Untuk memeriksa Wilayah sumber dan tujuan untuk profil inferensi, Anda dapat melakukan salah satu hal berikut:

Perluas bagian yang sesuai dalam daftar profil inferensi lintas wilayah yang didukung.
Kirim GetInferenceProfilepermintaan dengan titik akhir bidang kontrol Amazon Bedrock dari Wilayah sumber dan tentukan Nama Sumber Daya Amazon (ARN) atau ID profil inferensi di bidang. inferenceProfileIdentifier modelsBidang dalam respons memetakan daftar model ARNs, di mana Anda dapat mengidentifikasi setiap Wilayah tujuan.

catatan

Profil inferensi lintas wilayah global untuk model tertentu dapat berubah seiring waktu karena AWS menambahkan lebih banyak Wilayah komersial tempat permintaan Anda dapat diproses. Namun, jika profil inferensi terkait dengan geografi (seperti AS, UE, atau APAC), daftar Wilayah tujuannya tidak akan pernah berubah. AWS mungkin membuat profil inferensi baru yang menggabungkan Wilayah baru. Anda dapat memperbarui sistem Anda untuk menggunakan profil inferensi ini dengan mengubah pengaturan Anda ke yang baru. IDs

Profil inferensi lintas wilayah Global saat ini hanya didukung pada Anthropic Claude Sonnet 4 model untuk sumber berikut Wilayah: AS Barat (Oregon), AS Timur (Virginia N.), AS Timur (Ohio), Eropa (Irlandia), dan Asia Pasifik (Tokyo). Wilayah tujuan untuk profil inferensi Global mencakup semua iklan Wilayah AWS.

Perhatikan informasi berikut tentang inferensi lintas wilayah:

Tidak ada biaya perutean tambahan untuk menggunakan inferensi lintas wilayah. Harga dihitung berdasarkan Wilayah tempat Anda memanggil profil inferensi. Untuk informasi tentang harga, lihat harga Amazon Bedrock.
Profil inferensi Lintas Wilayah Global memberikan throughput yang lebih tinggi daripada profil inferensi yang terkait dengan geografi tertentu. Profil inferensi yang terkait dengan geografi tertentu menawarkan throughput yang lebih tinggi daripada inferensi wilayah tunggal.
Untuk melihat kuota default untuk throughput Lintas wilayah saat menggunakan profil inferensi yang terkait dengan geografi (seperti AS, UE, dan APAC), lihat permintaan inferensi model lintas wilayah per menit untuk $ {Model} dan Token inferensi model lintas-wilayah per menit untuk nilai $ {Model} dalam kuota layanan Amazon Bedrock di Referensi Umum.AWS
Untuk melihat kuota default untuk throughput Lintas wilayah saat menggunakan profil inferensi Global, lihat permintaan inferensi model Lintas wilayah Global per menit untuk $ {Model} dan token inferensi model Lintas wilayah Global per menit untuk nilai $ {Model} dalam kuota layanan Amazon Bedrock di Referensi Umum.AWS

Anda dapat meminta, melihat, dan mengelola kuota untuk Profil Inferensi Lintas Wilayah Global dari konsol Service Quotas atau dengan menggunakan perintah AWS CLI di Wilayah AS Timur (Virginia Utara). Perhatikan bahwa kuota inferensi Lintas Wilayah Global tidak akan muncul di konsol Service Quotas atau AWS CLI untuk Wilayah sumber lain yang tercantum dalam Profil Inferensi Global.
Permintaan inferensi Lintas Wilayah ke profil inferensi yang terkait dengan geografi (misalnya AS, UE, dan APAC) disimpan di dalam Wilayah AWS yang merupakan bagian dari geografi tempat data awalnya berada. Misalnya, permintaan yang dibuat di AS disimpan Wilayah AWS di AS. Meskipun data tetap disimpan hanya di Wilayah sumber, permintaan input dan hasil keluaran Anda mungkin bergerak di luar Wilayah sumber Anda selama inferensi Lintas wilayah. Semua data akan dikirimkan dienkripsi di seluruh jaringan aman Amazon.
AWS Layanan yang didukung oleh Amazon Bedrock juga dapat menggunakan CRIS. Lihat dokumentasi khusus layanan untuk detail selengkapnya.

Gunakan profil inferensi lintas wilayah (ditentukan sistem)

Untuk menggunakan inferensi lintas wilayah, Anda menyertakan profil inferensi saat menjalankan inferensi model dengan cara berikut:

Inferensi model sesuai permintaan — Tentukan ID profil inferensi sebagai modelId saat mengirim,, Converse InvokeModel InvokeModelWithResponseStream, atau permintaan. ConverseStream Profil inferensi mendefinisikan satu atau beberapa Wilayah tempat ia dapat merutekan permintaan inferensi yang berasal dari Wilayah sumber Anda. Penggunaan inferensi lintas wilayah meningkatkan throughput dan kinerja dengan merutekan permintaan pemanggilan model secara dinamis di seluruh Wilayah yang ditentukan dalam profil inferensi. Faktor routing dalam lalu lintas pengguna, permintaan dan pemanfaatan sumber daya. Untuk informasi selengkapnya, lihat Kirim petunjuk dan hasilkan tanggapan dengan inferensi model
Inferensi Batch — Kirim permintaan secara asinkron dengan inferensi batch dengan menentukan ID profil inferensi sebagai saat mengirim permintaan. modelId CreateModelInvocationJob Menggunakan profil inferensi memungkinkan Anda memanfaatkan komputasi di beberapa Wilayah AWS dan mencapai waktu pemrosesan yang lebih cepat untuk pekerjaan batch Anda. Setelah pekerjaan selesai, Anda dapat mengambil file output dari bucket Amazon S3 di Wilayah sumber.
Agen — Tentukan ID profil inferensi di foundationModel bidang dalam CreateAgentpermintaan. Untuk informasi selengkapnya, lihat Buat dan konfigurasikan agen secara manual.
Pembuatan respons basis pengetahuan — Anda dapat menggunakan inferensi lintas wilayah saat menghasilkan respons setelah menanyakan basis pengetahuan. Untuk informasi selengkapnya, lihat Uji basis pengetahuan Anda dengan pertanyaan dan tanggapan.
Evaluasi model — Anda dapat mengirimkan profil inferensi sebagai model untuk mengevaluasi saat mengirimkan pekerjaan evaluasi model. Untuk informasi selengkapnya, lihat Evaluasi kinerja sumber daya Amazon Bedrock.
Manajemen cepat - Anda dapat menggunakan inferensi lintas wilayah saat menghasilkan respons untuk prompt yang Anda buat di Manajemen Prompt. Untuk informasi selengkapnya, lihat Buat dan simpan petunjuk yang dapat digunakan kembali dengan manajemen Prompt di Amazon Bedrock
Alur prompt - Anda dapat menggunakan inferensi lintas wilayah saat menghasilkan respons untuk prompt yang Anda tentukan sebaris dalam simpul prompt dalam alur prompt. Untuk informasi selengkapnya, lihat Bangun alur kerja AI end-to-end generatif dengan Amazon Bedrock Flows.

catatan

Profil inferensi global didukung untuk inferensi model sesuai permintaan, inferensi Batch, Agen, Evaluasi model, manajemen Prompt, dan aliran Prompt.

Untuk mempelajari cara menggunakan profil inferensi untuk mengirim permintaan pemanggilan model di seluruh Wilayah, lihat. Gunakan profil inferensi dalam pemanggilan model

Untuk mempelajari lebih lanjut tentang inferensi lintas wilayah, lihat Memulai inferensi lintas wilayah di Amazon Bedrock.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Memproses kasus penggunaan

Throughput yang Disediakan: Meningkatkan throughput model