Secara otomatis memperbaiki node di kluster EKS

Topik ini merinci perilaku perbaikan node otomatis EKS dan cara mengonfigurasinya untuk memenuhi kebutuhan Anda. Perbaikan simpul otomatis EKS diaktifkan secara default dalam Mode Otomatis EKS, dan dapat digunakan dengan grup simpul yang dikelola EKS dan Karpenter.

Tindakan perbaikan node otomatis EKS default dirangkum dalam tabel di bawah ini dan mereka berlaku untuk perilaku untuk Mode Otomatis EKS, grup node terkelola EKS, dan Karpenter. Saat menggunakan Mode Otomatis EKS atau Karpenter, semua tindakan AcceleratedHardwareReady perbaikan dilakukanReplace, dan hanya grup simpul yang dikelola EKS yang mendukung Reboot sebagai tindakan perbaikan.

Untuk daftar rinci masalah kesehatan node yang terdeteksi oleh agen pemantau simpul EKS dan tindakan perbaikan node yang sesuai, lihatMendeteksi masalah kesehatan simpul dengan agen pemantauan simpul EKS.

Kondisi Node	Deskripsi	Perbaikan setelah	Tindakan perbaikan
AcceleratedHardwareReady	AcceleratedHardwareReady menunjukkan apakah perangkat keras yang dipercepat (GPU, Neuron) pada node berfungsi dengan benar.	10m	Ganti atau Reboot
ContainerRuntimeReady	ContainerRuntimeReady menunjukkan apakah runtime kontainer (containerd, dll.) berfungsi dengan benar dan dapat menjalankan kontainer.	30m	Ganti
DiskPressure	DiskPressure adalah kondisi Kubernetes standar yang menunjukkan node mengalami tekanan disk (ruang disk rendah atau I/O tinggi).	N/A	Tidak ada
KernelReady	KernelReady menunjukkan apakah kernel berfungsi dengan benar tanpa kesalahan kritis, kepanikan, atau kehabisan sumber daya.	30m	Ganti
MemoryPressure	MemoryPressure adalah kondisi Kubernetes standar yang menunjukkan node mengalami tekanan memori (memori yang tersedia rendah).	N/A	Tidak ada
NetworkingReady	NetworkingReady menunjukkan apakah tumpukan jaringan node berfungsi dengan benar (antarmuka, perutean, konektivitas).	30m	Ganti
StorageReady	StorageReady menunjukkan apakah subsistem penyimpanan node berfungsi dengan benar (disk, sistem file, I/O).	30m	Ganti
Siap	Ready adalah kondisi Kubernetes standar yang menunjukkan node sehat dan siap menerima pod.	30m	Ganti

Tindakan perbaikan node otomatis EKS dinonaktifkan dalam skenario berikut secara default. Tindakan perbaikan node yang sedang berlangsung berlanjut di setiap skenario. Lihat Konfigurasikan perbaikan node otomatis cara mengganti pengaturan default ini.

Grup simpul terkelola EKS

Grup node memiliki lebih dari lima node dan lebih dari 20% node dalam kelompok node tidak sehat.
Pergeseran zona untuk kluster Anda dipicu melalui Application Recovery Controller (ARC).

Mode Otomatis EKS dan Karpenter

Lebih dari 20% node di dalamnya NodePool tidak sehat.
Untuk standalone NodeClaims, 20% node di cluster tidak sehat.

Konfigurasikan perbaikan node otomatis

Perbaikan node otomatis tidak dapat dikonfigurasi saat menggunakan Mode Otomatis EKS dan selalu diaktifkan dengan pengaturan default yang sama dengan Karpenter.

Karpenter

Untuk menggunakan perbaikan node otomatis dengan Karpenter, aktifkan gerbang fitur. NodeRepair=true Anda dapat mengaktifkan gerbang fitur melalui opsi --feature-gates CLI atau variabel FEATURE_GATES lingkungan dalam penyebaran Karpenter. Untuk informasi lebih lanjut, lihat dokumentasi Karpenter.

Grup simpul terkelola

Anda dapat mengaktifkan perbaikan node otomatis saat membuat grup node terkelola EKS baru atau dengan memperbarui grup node terkelola EKS yang ada.

Konsol Amazon EKS — Pilih kotak centang Aktifkan perbaikan otomatis node untuk grup node terkelola. Untuk informasi selengkapnya, lihat Buat grup node terkelola untuk klaster Anda.
AWS CLI - Tambahkan --node-repair-config enabled=true ke perintah eks create-nodegroupatau eks update-nodegroup-config.
eksctl — KonfigurasikanmanagedNodeGroups.nodeRepairConfig.enabled: true, lihat contoh di eksctl. GitHub

Saat menggunakan grup node terkelola EKS, Anda dapat mengontrol perilaku perbaikan otomatis node dengan pengaturan berikut.

Untuk mengontrol kapan perbaikan otomatis node berhenti mengambil tindakan, tetapkan ambang batas berdasarkan jumlah node yang tidak sehat dalam grup node. Tetapkan jumlah absolut atau persentase, tetapi tidak keduanya.

Pengaturan	Deskripsi
`maxUnhealthyNodeThresholdCount`	Jumlah absolut node yang tidak sehat di atas mana perbaikan otomatis node berhenti. Gunakan ini untuk membatasi ruang lingkup perbaikan.
`maxUnhealthyNodeThresholdPercentage`	Persentase node yang tidak sehat di atas mana perbaikan otomatis node berhenti (0-100).

Untuk mengontrol berapa banyak node perbaikan pada saat yang sama, Anda dapat mengkonfigurasi perbaikan paralelisme. Seperti halnya ambang simpul yang tidak sehat, tetapkan jumlah absolut atau persentase, tetapi tidak keduanya.

Pengaturan	Deskripsi
`maxParallelNodesRepairedCount`	Jumlah maksimum node untuk diperbaiki secara bersamaan.
`maxParallelNodesRepairedPercentage`	Persentase maksimum node yang tidak sehat untuk diperbaiki secara bersamaan (0-100).

DengannodeRepairConfigOverrides, Anda dapat menyesuaikan perilaku perbaikan untuk kondisi tertentu. Gunakan ini ketika Anda memerlukan tindakan perbaikan yang berbeda atau waktu tunggu untuk jenis masalah yang berbeda.

Setiap penggantian membutuhkan semua bidang berikut:

Bidang	Deskripsi
`nodeMonitoringCondition`	Jenis kondisi node yang dilaporkan oleh agen pemantauan node. Misalnya:`AcceleratedHardwareReady`,`NetworkingReady`,`StorageReady`,`KernelReady`.
`nodeUnhealthyReason`	Kode alasan spesifik untuk kondisi tidak sehat. Misalnya: `NvidiaXID31Error`, `IPAMDNotRunning`.
`minRepairWaitTimeMins`	Waktu minimum dalam beberapa menit bahwa kondisi harus bertahan sebelum node memenuhi syarat untuk diperbaiki. Gunakan ini untuk menghindari perbaikan node untuk masalah sementara.
`repairAction`	Tindakan yang harus diambil ketika kondisi terpenuhi. Nilai yang valid: `Replace` (menghentikan dan mengganti node), `Reboot` (reboot node), atau `NoAction` (tidak ada tindakan perbaikan).

Contoh AWS CLI berikut membuat grup node dengan pengaturan perbaikan kustom.


aws eks create-nodegroup \
  --cluster-name my-cluster \
  --nodegroup-name my-nodegroup \
  --node-role arn:aws:iam::111122223333:role/NodeRole \
  --subnets subnet-0123456789abcdef0 \
  --node-repair-config '{
    "enabled": true,
    "maxUnhealthyNodeThresholdPercentage": 10,
    "maxParallelNodesRepairedCount": 3,
    "nodeRepairConfigOverrides": [
      {
        "nodeMonitoringCondition": "AcceleratedHardwareReady",
        "nodeUnhealthyReason": "NvidiaXID64Error",
        "minRepairWaitTimeMins": 5,
        "repairAction": "Replace"
      },
      {
        "nodeMonitoringCondition": "AcceleratedHardwareReady",
        "nodeUnhealthyReason": "NvidiaXID31Error",
        "minRepairWaitTimeMins": 15,
        "repairAction": "NoAction"
      }
    ]
  }'

Konfigurasi ini melakukan hal berikut:

Mengaktifkan perbaikan otomatis node
Menghentikan tindakan perbaikan ketika lebih dari 10% node tidak sehat
Memperbaiki hingga 3 node sekaligus
Mengganti kesalahan XID 64 (kegagalan pemetaan ulang memori GPU) untuk mengganti node setelah 5 menit. Defaultnya adalah reboot setelah 10 menit.
Mengganti kesalahan XID 31 (kesalahan halaman memori GPU) agar tidak mengambil tindakan. Defaultnya adalah reboot setelah 10 menit.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Deteksi kesehatan simpul

Lihat kesehatan simpul