Bantu tingkatkan halaman ini
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Secara otomatis memperbaiki node di kluster EKS
Topik ini merinci perilaku perbaikan node otomatis EKS dan cara mengonfigurasinya untuk memenuhi kebutuhan Anda. Perbaikan simpul otomatis EKS diaktifkan secara default dalam Mode Otomatis EKS, dan dapat digunakan dengan grup simpul yang dikelola EKS dan Karpenter.
Tindakan perbaikan node otomatis EKS default dirangkum dalam tabel di bawah ini dan mereka berlaku untuk perilaku untuk Mode Otomatis EKS, grup node terkelola EKS, dan Karpenter. Saat menggunakan Mode Otomatis EKS atau Karpenter, semua tindakan AcceleratedHardwareReady perbaikan dilakukanReplace, dan hanya grup simpul yang dikelola EKS yang mendukung Reboot sebagai tindakan perbaikan.
Untuk daftar rinci masalah kesehatan node yang terdeteksi oleh agen pemantau simpul EKS dan tindakan perbaikan node yang sesuai, lihatMendeteksi masalah kesehatan simpul dengan agen pemantauan simpul EKS.
| Kondisi Node | Deskripsi | Perbaikan setelah | Tindakan perbaikan |
|---|---|---|---|
|
AcceleratedHardwareReady |
AcceleratedHardwareReady menunjukkan apakah perangkat keras yang dipercepat (GPU, Neuron) pada node berfungsi dengan benar. |
10m |
Ganti atau Reboot |
|
ContainerRuntimeReady |
ContainerRuntimeReady menunjukkan apakah runtime kontainer (containerd, dll.) berfungsi dengan benar dan dapat menjalankan kontainer. |
30m |
Ganti |
|
DiskPressure |
DiskPressure adalah kondisi Kubernetes standar yang menunjukkan node mengalami tekanan disk (ruang disk rendah atau I/O tinggi). |
N/A |
Tidak ada |
|
KernelReady |
KernelReady menunjukkan apakah kernel berfungsi dengan benar tanpa kesalahan kritis, kepanikan, atau kehabisan sumber daya. |
30m |
Ganti |
|
MemoryPressure |
MemoryPressure adalah kondisi Kubernetes standar yang menunjukkan node mengalami tekanan memori (memori yang tersedia rendah). |
N/A |
Tidak ada |
|
NetworkingReady |
NetworkingReady menunjukkan apakah tumpukan jaringan node berfungsi dengan benar (antarmuka, perutean, konektivitas). |
30m |
Ganti |
|
StorageReady |
StorageReady menunjukkan apakah subsistem penyimpanan node berfungsi dengan benar (disk, sistem file, I/O). |
30m |
Ganti |
|
Siap |
Ready adalah kondisi Kubernetes standar yang menunjukkan node sehat dan siap menerima pod. |
30m |
Ganti |
Tindakan perbaikan node otomatis EKS dinonaktifkan dalam skenario berikut secara default. Tindakan perbaikan node yang sedang berlangsung berlanjut di setiap skenario. Lihat Konfigurasikan perbaikan node otomatis cara mengganti pengaturan default ini.
Grup simpul terkelola EKS
-
Grup node memiliki lebih dari lima node dan lebih dari 20% node dalam kelompok node tidak sehat.
-
Pergeseran zona untuk kluster Anda dipicu melalui Application Recovery Controller (ARC).
Mode Otomatis EKS dan Karpenter
-
Lebih dari 20% node di dalamnya NodePool tidak sehat.
-
Untuk standalone NodeClaims, 20% node di cluster tidak sehat.
Konfigurasikan perbaikan node otomatis
Perbaikan node otomatis tidak dapat dikonfigurasi saat menggunakan Mode Otomatis EKS dan selalu diaktifkan dengan pengaturan default yang sama dengan Karpenter.
Karpenter
Untuk menggunakan perbaikan node otomatis dengan Karpenter, aktifkan gerbang fitur. NodeRepair=true Anda dapat mengaktifkan gerbang fitur melalui opsi --feature-gates CLI atau variabel FEATURE_GATES lingkungan dalam penyebaran Karpenter. Untuk informasi lebih lanjut, lihat dokumentasi Karpenter
Grup simpul terkelola
Anda dapat mengaktifkan perbaikan node otomatis saat membuat grup node terkelola EKS baru atau dengan memperbarui grup node terkelola EKS yang ada.
-
Konsol Amazon EKS — Pilih kotak centang Aktifkan perbaikan otomatis node untuk grup node terkelola. Untuk informasi selengkapnya, lihat Buat grup node terkelola untuk klaster Anda.
-
AWS CLI - Tambahkan
--node-repair-config enabled=trueke perintaheks create-nodegroupataueks update-nodegroup-config. -
eksctl — Konfigurasikan
managedNodeGroups.nodeRepairConfig.enabled: true, lihat contoh di eksctl. GitHub
Saat menggunakan grup node terkelola EKS, Anda dapat mengontrol perilaku perbaikan otomatis node dengan pengaturan berikut.
Untuk mengontrol kapan perbaikan otomatis node berhenti mengambil tindakan, tetapkan ambang batas berdasarkan jumlah node yang tidak sehat dalam grup node. Tetapkan jumlah absolut atau persentase, tetapi tidak keduanya.
| Pengaturan | Deskripsi |
|---|---|
|
|
Jumlah absolut node yang tidak sehat di atas mana perbaikan otomatis node berhenti. Gunakan ini untuk membatasi ruang lingkup perbaikan. |
|
|
Persentase node yang tidak sehat di atas mana perbaikan otomatis node berhenti (0-100). |
Untuk mengontrol berapa banyak node perbaikan pada saat yang sama, Anda dapat mengkonfigurasi perbaikan paralelisme. Seperti halnya ambang simpul yang tidak sehat, tetapkan jumlah absolut atau persentase, tetapi tidak keduanya.
| Pengaturan | Deskripsi |
|---|---|
|
|
Jumlah maksimum node untuk diperbaiki secara bersamaan. |
|
|
Persentase maksimum node yang tidak sehat untuk diperbaiki secara bersamaan (0-100). |
DengannodeRepairConfigOverrides, Anda dapat menyesuaikan perilaku perbaikan untuk kondisi tertentu. Gunakan ini ketika Anda memerlukan tindakan perbaikan yang berbeda atau waktu tunggu untuk jenis masalah yang berbeda.
Setiap penggantian membutuhkan semua bidang berikut:
| Bidang | Deskripsi |
|---|---|
|
|
Jenis kondisi node yang dilaporkan oleh agen pemantauan node. Misalnya: |
|
|
Kode alasan spesifik untuk kondisi tidak sehat. Misalnya: |
|
|
Waktu minimum dalam beberapa menit bahwa kondisi harus bertahan sebelum node memenuhi syarat untuk diperbaiki. Gunakan ini untuk menghindari perbaikan node untuk masalah sementara. |
|
|
Tindakan yang harus diambil ketika kondisi terpenuhi. Nilai yang valid: |
Contoh AWS CLI berikut membuat grup node dengan pengaturan perbaikan kustom.
aws eks create-nodegroup \ --cluster-name my-cluster \ --nodegroup-name my-nodegroup \ --node-role arn:aws:iam::111122223333:role/NodeRole \ --subnets subnet-0123456789abcdef0 \ --node-repair-config '{ "enabled": true, "maxUnhealthyNodeThresholdPercentage": 10, "maxParallelNodesRepairedCount": 3, "nodeRepairConfigOverrides": [ { "nodeMonitoringCondition": "AcceleratedHardwareReady", "nodeUnhealthyReason": "NvidiaXID64Error", "minRepairWaitTimeMins": 5, "repairAction": "Replace" }, { "nodeMonitoringCondition": "AcceleratedHardwareReady", "nodeUnhealthyReason": "NvidiaXID31Error", "minRepairWaitTimeMins": 15, "repairAction": "NoAction" } ] }'
Konfigurasi ini melakukan hal berikut:
-
Mengaktifkan perbaikan otomatis node
-
Menghentikan tindakan perbaikan ketika lebih dari 10% node tidak sehat
-
Memperbaiki hingga 3 node sekaligus
-
Mengganti kesalahan XID 64 (kegagalan pemetaan ulang memori GPU) untuk mengganti node setelah 5 menit. Defaultnya adalah reboot setelah 10 menit.
-
Mengganti kesalahan XID 31 (kesalahan halaman memori GPU) agar tidak mengambil tindakan. Defaultnya adalah reboot setelah 10 menit.