Catatan rilis Amazon SageMaker HyperPod Inference - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Catatan rilis Amazon SageMaker HyperPod Inference

Topik ini mencakup catatan rilis yang melacak pembaruan, perbaikan, dan fitur baru untuk SageMaker HyperPod Inferensi Amazon. SageMaker HyperPod Inferensi memungkinkan Anda untuk menerapkan dan menskalakan model pembelajaran mesin pada HyperPod klaster Anda dengan keandalan tingkat perusahaan. Untuk rilis, pembaruan, dan peningkatan SageMaker HyperPod platform Amazon secara umum, lihatCatatan SageMaker HyperPod rilis Amazon.

Untuk informasi tentang kemampuan SageMaker HyperPod Inferensi dan opsi penerapan, lihat. Menyebarkan model di Amazon SageMaker HyperPod

SageMaker HyperPod Catatan rilis inferensi: v3.0

Tanggal Rilis: 23 Februari 2026

Ringkasan

Inference Operator 3.0 memperkenalkan integrasi Add-on EKS untuk manajemen siklus hidup yang disederhanakan, dukungan Node Affinity untuk kontrol penjadwalan granular, dan penandaan sumber daya yang ditingkatkan. Instalasi berbasis HELM yang ada dapat dimigrasikan ke Eks Add-on menggunakan skrip migrasi yang disediakan. Perbarui peran eksekusi Operator Inferensi Anda dengan izin penandaan baru sebelum memutakhirkan.

Fitur Utama

  • EKS Add-on Integration - Manajemen siklus hidup tingkat perusahaan dengan pengalaman instalasi yang disederhanakan

  • Node Affinity — Kontrol penjadwalan granular untuk mengecualikan instance spot, memilih zona ketersediaan, atau menargetkan node dengan label khusus

Untuk informasi terperinci termasuk prasyarat, petunjuk peningkatan, dan panduan migrasi, lihat bagian di bawah ini.

Prasyarat

Sebelum memutakhirkan versi Helm ke 3.0, pelanggan harus menambahkan izin penandaan tambahan ke peran eksekusi operator Inferensi mereka. Sebagai bagian dari peningkatan penandaan dan keamanan sumber daya, Operator Inferensi sekarang menandai sumber daya ALB, S3, dan ACM. Peningkatan ini memerlukan izin tambahan dalam peran eksekusi Operator Inferensi. Tambahkan izin berikut ke peran eksekusi Operator Inferensi Anda:

{ "Sid": "CertificateTagginPermission", "Effect": "Allow", "Action": [ "acm:AddTagsToCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*", }, { "Sid": "S3PutObjectTaggingAccess", "Effect": "Allow", "Action": [ "s3:PutObjectTagging" ], "Resource": [ "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket ] }

Tingkatkan ke v3.0

Jika Anda sudah menginstal Operator Inferensi melalui Helm, gunakan perintah berikut untuk memutakhirkan:

helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.0 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'

Helm ke EKS Add-on Migration

Jika operator Inferensi diinstal melalui Helm sebelum versi 3.0, kami sarankan untuk bermigrasi ke EKS Add-on untuk mendapatkan pembaruan tepat waktu pada fitur baru yang akan dirilis untuk Operator Inferensi. Skrip ini memigrasikan Operator SageMaker HyperPod Inferensi dari instalasi berbasis HELM ke instalasi Eks Add-on.

Ikhtisar: Skrip mengambil nama cluster dan wilayah sebagai parameter, mengambil konfigurasi instalasi Helm yang ada, dan bermigrasi ke penerapan Eks Add-on. Ini menciptakan peran IAM baru untuk Operator Inferensi, Pengontrol ALB, dan Operator KEDA.

Sebelum memigrasikan Operator Inferensi, skrip memastikan dependensi yang diperlukan (driver S3 CSI, driver CSI, cert-manager, dan FSx metrics-server) ada. Jika tidak ada, itu menerapkannya sebagai Add-on.

Setelah migrasi Add-on Operator Inference selesai, skrip juga memigrasikan S3,, dan dependensi lainnya (ALB FSx, KEDA, cert-manager, metrics-server) jika awalnya diinstal melalui bagan Helm Operator Inference. Gunakan --skip-dependencies-migration untuk melewati langkah ini untuk driver S3 CSI, driver CSI, FSx cert-manager, dan metrics-server. Perhatikan bahwa ALB dan KEDA diinstal sebagai bagian dari Add-on di namespace yang sama dengan Inference Operator, dan akan dimigrasikan sebagai bagian dari Add-on Operator Inference.

penting

Selama migrasi, jangan gunakan model baru karena tidak akan diterapkan hingga migrasi selesai. Setelah Add-on Operator Inferensi dalam status AKTIF, model baru dapat digunakan. Waktu migrasi biasanya memakan waktu 15 hingga 20 menit, dan dapat selesai dalam 30 menit jika hanya beberapa model yang saat ini digunakan.

Prasyarat Migrasi:

  • AWS CLI dikonfigurasi dengan kredensil yang sesuai

  • kubectl dikonfigurasi dengan akses ke kluster EKS Anda

  • Helm dipasang

  • Instalasi Helm yang ada hyperpod-inference-operator

catatan

Titik akhir yang sudah berjalan tidak akan terganggu selama proses migrasi. Endpoint yang ada akan terus melayani lalu lintas tanpa gangguan selama migrasi.

Mendapatkan Skrip Migrasi:

git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator/migration

Pemakaian:

./helm_to_addon.sh [OPTIONS] \ --cluster-name <cluster-name> (Required) \ --region <region> (Required) \ --helm-namespace kube-system (Optional) \ --auto-approve (Optional) \ --skip-dependencies-migration (Optional) \ --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \ --fsx-role-arn <fsx-role-arn> (Optional)

Pilihan:

  • --cluster-name NAME— Nama cluster EKS (wajib)

  • --region REGION— AWS wilayah (wajib)

  • --helm-namespace NAMESPACE— Namespace tempat bagan Helm diinstal (default: kube-system) (opsional)

  • --s3-mountpoint-role-arn ARN— S3 Mountpoint CSI driver IAM peran ARN (opsional)

  • --fsx-role-arn ARN— Driver FSx CSI IAM peran ARN (opsional)

  • --auto-approve— Lewati konfirmasi konfirmasi jika bendera ini diaktifkan. step-by-stepdan auto-approve saling eksklusif, jika --auto-approve diberikan, jangan tentukan --step-by-step (opsional)

  • --step-by-step— Jeda setelah setiap langkah utama untuk ditinjau. Ini tidak boleh disebutkan jika --auto-approve sudah ditambahkan (opsional)

  • --skip-dependencies-migration— Lewati migrasi dependensi yang diinstal Helm ke Add-on. Untuk dependensi TIDAK diinstal melalui bagan Helm Operator Inference, atau jika Anda ingin mengelolanya secara terpisah. (opsional)

Contoh:

Migrasi dasar (memigrasikan dependensi):

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1

Persetujuan otomatis tanpa petunjuk:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --auto-approve

Lewati migrasi ketergantungan untuk FSx, S3 mountpoint, manajer sertifikat, dan server Metrik:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --skip-dependencies-migration

Berikan peran S3 dan FSx IAM yang ada:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \ --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role

Lokasi Cadangan:

Backup disimpan di /tmp/hyperpod-migration-backup-<timestamp>/

Pencadangan memungkinkan migrasi dan pemulihan yang aman:

  • Rollback on Failure - Jika migrasi gagal, skrip dapat secara otomatis mengembalikan klaster Anda ke status pra-migrasi menggunakan konfigurasi yang dicadangkan

  • Audit Trail — Memberikan catatan lengkap tentang apa yang ada sebelum migrasi untuk pemecahan masalah dan kepatuhan

  • Referensi Konfigurasi - Memungkinkan Anda membandingkan konfigurasi pra-migrasi dan pasca-migrasi

  • Pemulihan Manual - Jika diperlukan, Anda dapat secara manual memeriksa dan memulihkan sumber daya tertentu dari direktori cadangan

Rollback:

Jika migrasi gagal, skrip meminta konfirmasi pengguna sebelum memulai rollback untuk memulihkan status sebelumnya.

SageMaker HyperPod Catatan rilis inferensi: v2.3

Apa yang baru

Rilis ini memperkenalkan bidang opsional baru dalam Definisi Sumber Daya Kustom (CRDs) untuk meningkatkan fleksibilitas konfigurasi penerapan.

Fitur

  • Jenis Multi Instance

    • Keandalan penerapan yang disempurnakan — Mendukung konfigurasi tipe multi-instance dengan failover otomatis ke tipe instans alternatif saat opsi pilihan tidak memiliki kapasitas

    • Penjadwalan sumber daya cerdas — Menggunakan afinitas node Kubernetes untuk memprioritaskan tipe instance sekaligus menjamin penerapan bahkan ketika sumber daya pilihan tidak tersedia

    • Biaya dan kinerja yang dioptimalkan — Mempertahankan preferensi jenis instans Anda dan mencegah kegagalan terkait kapasitas selama fluktuasi klaster

Perbaikan Bug

Perubahan pada bidang invocationEndpoint dalam spesifikasi sekarang InferenceEndpointConfig akan berlaku:

  • Jika invocationEndpoint bidang ditambal atau diperbarui, sumber daya dependen, sepertiIngress, Load Balancer, SageMaker dan EndpointSageMakerEndpointRegistration, akan diperbarui dengan normalisasi.

  • Nilai yang invocationEndpoint disediakan akan disimpan apa adanya dalam InferenceEndpointConfig spesifikasi itu sendiri. Ketika nilai ini digunakan untuk membuat Load Balancer dan— jika diaktifkan— SageMaker Endpoint, nilai ini akan dinormalisasi untuk memiliki satu garis miring ke depan.

    • v1/chat/completionsakan dinormalisasi /v1/chat/completions untuk AWS Load BalancerIngress, SageMaker dan Endpoint. UntukSageMakerEndpointRegistration, itu akan ditampilkan dalam spesifikasinya sebagaiv1/chat/completions.

    • ///invokeakan dinormalisasi /invoke untuk AWS Load BalancerIngress, SageMaker dan Endpoint. UntukSageMakerEndpointRegistration, itu akan ditampilkan dalam spesifikasinya sebagaiinvoke.

Instalasi Helm:

Ikuti: https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart

Jika Anda fokus hanya menginstal operator inferensi, setelah langkah 1 yaituSet Up Your Helm Environment, lakukancd HyperPodHelmChart/charts/inference-operator. Karena Anda berada di direktori bagan operator inferensi itu sendiri, dalam perintah, di mana pun Anda melihathelm_chart/HyperPodHelmChart, ganti dengan..

Tingkatkan Operator ke v2.3 jika sudah diinstal:

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml helm upgrade hyperpod-inference-operator . \ -n kube-system \ -f current-values.yaml \ --set image.tag=v2.3