Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Catatan rilis Amazon SageMaker HyperPod Inference
Topik ini mencakup catatan rilis yang melacak pembaruan, perbaikan, dan fitur baru untuk SageMaker HyperPod Inferensi Amazon. SageMaker HyperPod Inferensi memungkinkan Anda untuk menerapkan dan menskalakan model pembelajaran mesin pada HyperPod klaster Anda dengan keandalan tingkat perusahaan. Untuk rilis, pembaruan, dan peningkatan SageMaker HyperPod platform Amazon secara umum, lihatCatatan SageMaker HyperPod rilis Amazon.
Untuk informasi tentang kemampuan SageMaker HyperPod Inferensi dan opsi penerapan, lihat. Menyebarkan model di Amazon SageMaker HyperPod
SageMaker HyperPod Catatan rilis inferensi: v3.0
Tanggal Rilis: 23 Februari 2026
Ringkasan
Inference Operator 3.0 memperkenalkan integrasi Add-on EKS untuk manajemen siklus hidup yang disederhanakan, dukungan Node Affinity untuk kontrol penjadwalan granular, dan penandaan sumber daya yang ditingkatkan. Instalasi berbasis HELM yang ada dapat dimigrasikan ke Eks Add-on menggunakan skrip migrasi yang disediakan. Perbarui peran eksekusi Operator Inferensi Anda dengan izin penandaan baru sebelum memutakhirkan.
Fitur Utama
-
EKS Add-on Integration - Manajemen siklus hidup tingkat perusahaan dengan pengalaman instalasi yang disederhanakan
-
Node Affinity — Kontrol penjadwalan granular untuk mengecualikan instance spot, memilih zona ketersediaan, atau menargetkan node dengan label khusus
Untuk informasi terperinci termasuk prasyarat, petunjuk peningkatan, dan panduan migrasi, lihat bagian di bawah ini.
Prasyarat
Sebelum memutakhirkan versi Helm ke 3.0, pelanggan harus menambahkan izin penandaan tambahan ke peran eksekusi operator Inferensi mereka. Sebagai bagian dari peningkatan penandaan dan keamanan sumber daya, Operator Inferensi sekarang menandai sumber daya ALB, S3, dan ACM. Peningkatan ini memerlukan izin tambahan dalam peran eksekusi Operator Inferensi. Tambahkan izin berikut ke peran eksekusi Operator Inferensi Anda:
{ "Sid": "CertificateTagginPermission", "Effect": "Allow", "Action": [ "acm:AddTagsToCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*", }, { "Sid": "S3PutObjectTaggingAccess", "Effect": "Allow", "Action": [ "s3:PutObjectTagging" ], "Resource": [ "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket ] }
Tingkatkan ke v3.0
Jika Anda sudah menginstal Operator Inferensi melalui Helm, gunakan perintah berikut untuk memutakhirkan:
helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.0 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'
Helm ke EKS Add-on Migration
Jika operator Inferensi diinstal melalui Helm sebelum versi 3.0, kami sarankan untuk bermigrasi ke EKS Add-on untuk mendapatkan pembaruan tepat waktu pada fitur baru yang akan dirilis untuk Operator Inferensi. Skrip ini memigrasikan Operator SageMaker HyperPod Inferensi dari instalasi berbasis HELM ke instalasi Eks Add-on.
Ikhtisar: Skrip mengambil nama cluster dan wilayah sebagai parameter, mengambil konfigurasi instalasi Helm yang ada, dan bermigrasi ke penerapan Eks Add-on. Ini menciptakan peran IAM baru untuk Operator Inferensi, Pengontrol ALB, dan Operator KEDA.
Sebelum memigrasikan Operator Inferensi, skrip memastikan dependensi yang diperlukan (driver S3 CSI, driver CSI, cert-manager, dan FSx metrics-server) ada. Jika tidak ada, itu menerapkannya sebagai Add-on.
Setelah migrasi Add-on Operator Inference selesai, skrip juga memigrasikan S3,, dan dependensi lainnya (ALB FSx, KEDA, cert-manager, metrics-server) jika awalnya diinstal melalui bagan Helm Operator Inference. Gunakan --skip-dependencies-migration untuk melewati langkah ini untuk driver S3 CSI, driver CSI, FSx cert-manager, dan metrics-server. Perhatikan bahwa ALB dan KEDA diinstal sebagai bagian dari Add-on di namespace yang sama dengan Inference Operator, dan akan dimigrasikan sebagai bagian dari Add-on Operator Inference.
penting
Selama migrasi, jangan gunakan model baru karena tidak akan diterapkan hingga migrasi selesai. Setelah Add-on Operator Inferensi dalam status AKTIF, model baru dapat digunakan. Waktu migrasi biasanya memakan waktu 15 hingga 20 menit, dan dapat selesai dalam 30 menit jika hanya beberapa model yang saat ini digunakan.
Prasyarat Migrasi:
AWS CLI dikonfigurasi dengan kredensil yang sesuai
kubectl dikonfigurasi dengan akses ke kluster EKS Anda
Helm dipasang
Instalasi Helm yang ada hyperpod-inference-operator
catatan
Titik akhir yang sudah berjalan tidak akan terganggu selama proses migrasi. Endpoint yang ada akan terus melayani lalu lintas tanpa gangguan selama migrasi.
Mendapatkan Skrip Migrasi:
git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator/migration
Pemakaian:
./helm_to_addon.sh [OPTIONS] \ --cluster-name <cluster-name> (Required) \ --region <region> (Required) \ --helm-namespace kube-system (Optional) \ --auto-approve (Optional) \ --skip-dependencies-migration (Optional) \ --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \ --fsx-role-arn <fsx-role-arn> (Optional)
Pilihan:
--cluster-name NAME— Nama cluster EKS (wajib)--region REGION— AWS wilayah (wajib)--helm-namespace NAMESPACE— Namespace tempat bagan Helm diinstal (default: kube-system) (opsional)--s3-mountpoint-role-arn ARN— S3 Mountpoint CSI driver IAM peran ARN (opsional)--fsx-role-arn ARN— Driver FSx CSI IAM peran ARN (opsional)--auto-approve— Lewati konfirmasi konfirmasi jika bendera ini diaktifkan.step-by-stepdanauto-approvesaling eksklusif, jika--auto-approvediberikan, jangan tentukan--step-by-step(opsional)--step-by-step— Jeda setelah setiap langkah utama untuk ditinjau. Ini tidak boleh disebutkan jika--auto-approvesudah ditambahkan (opsional)--skip-dependencies-migration— Lewati migrasi dependensi yang diinstal Helm ke Add-on. Untuk dependensi TIDAK diinstal melalui bagan Helm Operator Inference, atau jika Anda ingin mengelolanya secara terpisah. (opsional)
Contoh:
Migrasi dasar (memigrasikan dependensi):
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1
Persetujuan otomatis tanpa petunjuk:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --auto-approve
Lewati migrasi ketergantungan untuk FSx, S3 mountpoint, manajer sertifikat, dan server Metrik:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --skip-dependencies-migration
Berikan peran S3 dan FSx IAM yang ada:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \ --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role
Lokasi Cadangan:
Backup disimpan di /tmp/hyperpod-migration-backup-<timestamp>/
Pencadangan memungkinkan migrasi dan pemulihan yang aman:
Rollback on Failure - Jika migrasi gagal, skrip dapat secara otomatis mengembalikan klaster Anda ke status pra-migrasi menggunakan konfigurasi yang dicadangkan
Audit Trail — Memberikan catatan lengkap tentang apa yang ada sebelum migrasi untuk pemecahan masalah dan kepatuhan
Referensi Konfigurasi - Memungkinkan Anda membandingkan konfigurasi pra-migrasi dan pasca-migrasi
Pemulihan Manual - Jika diperlukan, Anda dapat secara manual memeriksa dan memulihkan sumber daya tertentu dari direktori cadangan
Rollback:
Jika migrasi gagal, skrip meminta konfirmasi pengguna sebelum memulai rollback untuk memulihkan status sebelumnya.
SageMaker HyperPod Catatan rilis inferensi: v2.3
Apa yang baru
Rilis ini memperkenalkan bidang opsional baru dalam Definisi Sumber Daya Kustom (CRDs) untuk meningkatkan fleksibilitas konfigurasi penerapan.
Fitur
-
Jenis Multi Instance
-
Keandalan penerapan yang disempurnakan — Mendukung konfigurasi tipe multi-instance dengan failover otomatis ke tipe instans alternatif saat opsi pilihan tidak memiliki kapasitas
-
Penjadwalan sumber daya cerdas — Menggunakan afinitas node Kubernetes untuk memprioritaskan tipe instance sekaligus menjamin penerapan bahkan ketika sumber daya pilihan tidak tersedia
-
Biaya dan kinerja yang dioptimalkan — Mempertahankan preferensi jenis instans Anda dan mencegah kegagalan terkait kapasitas selama fluktuasi klaster
-
Perbaikan Bug
Perubahan pada bidang invocationEndpoint dalam spesifikasi sekarang InferenceEndpointConfig akan berlaku:
-
Jika
invocationEndpointbidang ditambal atau diperbarui, sumber daya dependen, sepertiIngress, Load Balancer, SageMaker dan EndpointSageMakerEndpointRegistration, akan diperbarui dengan normalisasi. -
Nilai yang
invocationEndpointdisediakan akan disimpan apa adanya dalamInferenceEndpointConfigspesifikasi itu sendiri. Ketika nilai ini digunakan untuk membuat Load Balancer dan— jika diaktifkan— SageMaker Endpoint, nilai ini akan dinormalisasi untuk memiliki satu garis miring ke depan.-
v1/chat/completionsakan dinormalisasi/v1/chat/completionsuntuk AWS Load BalancerIngress, SageMaker dan Endpoint. UntukSageMakerEndpointRegistration, itu akan ditampilkan dalam spesifikasinya sebagaiv1/chat/completions. -
///invokeakan dinormalisasi/invokeuntuk AWS Load BalancerIngress, SageMaker dan Endpoint. UntukSageMakerEndpointRegistration, itu akan ditampilkan dalam spesifikasinya sebagaiinvoke.
-
Instalasi Helm:
Ikuti: https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart
Jika Anda fokus hanya menginstal operator inferensi, setelah langkah 1 yaituSet Up Your Helm Environment, lakukancd HyperPodHelmChart/charts/inference-operator. Karena Anda berada di direktori bagan operator inferensi itu sendiri, dalam perintah, di mana pun Anda melihathelm_chart/HyperPodHelmChart, ganti dengan..
Tingkatkan Operator ke v2.3 jika sudah diinstal:
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml helm upgrade hyperpod-inference-operator . \ -n kube-system \ -f current-values.yaml \ --set image.tag=v2.3