Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Untuk mengonfigurasi penskalaan otomatis untuk model (konsol)
Buka konsol Amazon SageMaker AI di https://console.aws.amazon.com/sagemaker/
. -
Pada panel navigasi, pilih Inferensi, lalu pilih Endpoints.
-
Pilih endpoint Anda, dan kemudian untuk pengaturan runtime Endpoint, pilih variannya.
-
Pilih Konfigurasi penskalaan otomatis.
-
Pada halaman Configure variant automatic scaling, untuk Variant automatic scaling, lakukan hal berikut:
-
Untuk jumlah instans Minimum, ketikkan jumlah instans minimum yang ingin dipertahankan oleh kebijakan penskalaan. Setidaknya 1 instance diperlukan.
-
Untuk jumlah instans Maksimum, ketikkan jumlah instans maksimum yang ingin dipertahankan oleh kebijakan penskalaan.
-
-
Untuk kebijakan penskalaan bawaan, lakukan hal berikut:
-
Untuk metrik Target,
SageMakerVariantInvocationsPerInstance
secara otomatis dipilih untuk metrik dan tidak dapat diubah. -
Untuk nilai Target, ketikkan jumlah rata-rata pemanggilan per instance per menit untuk model. Untuk menentukan nilai ini, ikuti pedoman diPengujian beban.
-
(Opsional) Untuk pendinginan Scale-in (detik) dan pendinginan Scale-out (detik), masukkan jumlah waktu, dalam detik, untuk setiap periode pendinginan.
-
(Opsional) Pilih Nonaktifkan skala jika Anda tidak ingin penskalaan otomatis menghentikan instance saat lalu lintas menurun.
-
-
Pilih Simpan.
Prosedur ini mendaftarkan model sebagai target yang dapat diskalakan dengan Application Auto Scaling. Saat Anda mendaftarkan model, Application Auto Scaling melakukan pemeriksaan validasi untuk memastikan hal-hal berikut:
-
Modelnya ada
-
Izin sudah cukup
-
Anda tidak mendaftarkan varian dengan instance yang merupakan instance kinerja yang dapat dibobol seperti T2
catatan
SageMaker AI tidak mendukung penskalaan otomatis untuk instans burstable seperti T2, karena mereka sudah memungkinkan peningkatan kapasitas di bawah peningkatan beban kerja. Untuk informasi tentang instans performa burstable, lihat jenis EC2 instans Amazon
.