節點監控代理程式使用 EC2 CLI 從 AWS EC2 受管執行個體取得主控台輸出使用偵錯容器和 CLI kubectl 取得節點日誌在 AWS 主控台中檢視與 EKS Auto Mode 相關聯的資源檢視您 AWS 帳戶中的 IAM 錯誤故障診斷無法排程至自動模式節點的 Pod 對未加入叢集的節點進行故障診斷跨 Pod 共用磁碟區在控制平面日誌中檢視 Karpenter 事件對自動模式下包含的控制器進行故障診斷

EKS Auto 模式故障診斷

使用 EKS Auto Mode，會 AWS 對您 AWS 帳戶中的 EC2 執行個體承擔更多責任。EKS 負責節點上的容器執行期、節點上的作業系統，以及特定控制器。這包括區塊儲存控制器、負載平衡控制器和運算控制器。

您必須使用 AWS 和 Kubernetes APIs 對節點進行故障診斷。您可以：

使用 Kubernetes NodeDiagnostic 資源來擷取節點日誌，方法是使用節點監控代理程式。如需更多步驟，請參閱使用 kubectl 和 S3 擷取受管節點的節點日誌。
使用 AWS EC2 CLI 命令從節點get-console-output擷取主控台輸出。如需更多步驟，請參閱使用 EC2 CLI 從 AWS EC2 受管執行個體取得主控台輸出。
使用 Kubernetes 除錯容器來擷取節點日誌。如需更多步驟，請參閱使用偵錯容器和 CLI kubectl 取得節點日誌。

注意

EKS Auto Mode 使用 EC2 受管執行個體。您無法直接存取 EC2 受管執行個體，包括 SSH。

您可能會遇到下列問題，這些問題具有 EKS Auto Mode 元件特定的解決方案：

Pod 停滯在 Pending 狀態，但未排程到自動模式節點。如需解決方案，請參閱故障診斷無法排程至自動模式節點的 Pod。
未將叢集加入為 Kubernetes 節點的 EC2 受管執行個體。如需解決方案，請參閱對未加入叢集的節點進行故障診斷。
Services 使用 EKS Auto Mode 中包含之控制器的 NodePools、 PersistentVolumes和的錯誤和問題。如需解決方案，請參閱對自動模式下包含的控制器進行故障診斷。
增強的 Pod 安全性可防止跨 Pod 共用磁碟區。如需解決方案，請參閱跨 Pod 共用磁碟區。

您可以使用下列方法來疑難排解 EKS Auto Mode 元件：

使用 EC2 CLI 從 AWS EC2 受管執行個體取得主控台輸出
使用偵錯容器和 CLI kubectl 取得節點日誌
在 AWS 主控台中檢視與 EKS Auto Mode 相關聯的資源
檢視您 AWS 帳戶中的 IAM 錯誤
偵測的節點連線問題 VPC Reachability Analyzer

節點監控代理程式

EKS Auto Mode 包含 Amazon EKS 節點監控代理程式。您可以使用此代理程式來檢視節點的疑難排解和偵錯資訊。節點監控代理程式會發佈 Kubernetes events和節點 conditions。如需詳細資訊，請參閱啟用節點自動修復並調查節點運作狀態問題。

使用 EC2 CLI 從 AWS EC2 受管執行個體取得主控台輸出

此程序有助於疑難排解開機時間或核心層級的問題。

首先，您需要判斷與工作負載相關聯之執行個體的 EC2 執行個體 ID。其次，使用 AWS CLI 擷取主控台輸出。

確認您kubectl已安裝並連線至您的叢集
（選用）使用 Kubernetes 部署的名稱來列出相關聯的 Pod。
```
kubectl get pods -l app=<deployment-name>
```
使用 Kubernetes Pod 的名稱來判斷相關聯節點的 EC2 執行個體 ID。
```
kubectl get pod <pod-name> -o wide
```

使用 EC2 執行個體 ID 擷取主控台輸出。


aws ec2 get-console-output --instance-id <instance id> --latest --output text

使用偵錯容器和 CLI `kubectl` 取得節點日誌

從 EKS Auto Mode 節點擷取日誌的建議方法是使用 NodeDiagnostic 資源。如需這些步驟，請參閱使用 kubectl 和 S3 擷取受管節點的節點日誌。

不過，您可以使用 kubectl debug node命令，從執行個體即時串流日誌。此命令會在您要偵錯的節點上啟動新的 Pod，然後以互動方式使用。

啟動偵錯容器。下列命令使用 i-01234567890123456 做為節點的執行個體 ID，-it配置 tty並連接 stdin以供互動式使用，並使用 kubeconfig 檔案的 sysadmin設定檔。


kubectl debug node/i-01234567890123456 -it --profile=sysadmin --image=public.ecr.aws/amazonlinux/amazonlinux:2023

範例輸出如下。


Creating debugging pod node-debugger-i-01234567890123456-nxb9c with container debugger on node i-01234567890123456.
If you don't see a command prompt, try pressing enter.
bash-5.2#

您現在可以從 shell 安裝 util-linux-core 來提供 nsenter命令。使用在主機上nsenter輸入 PID 1 (init) 的掛載命名空間，然後執行 journalctl命令從串流日誌kubelet：
```
yum install -y util-linux-core
nsenter -t 1 -m journalctl -f -u kubelet
```

為了安全起見，Amazon Linux 容器映像預設不會安裝許多二進位檔。您可以使用 yum whatprovides命令來識別必須安裝的套件，以提供指定的二進位檔。


yum whatprovides ps


Last metadata expiration check: 0:03:36 ago on Thu Jan 16 14:49:17 2025.
procps-ng-3.3.17-1.amzn2023.0.2.x86_64 : System and process monitoring utilities
Repo        : @System
Matched from:
Filename    : /usr/bin/ps
Provide    : /bin/ps

procps-ng-3.3.17-1.amzn2023.0.2.x86_64 : System and process monitoring utilities
Repo        : amazonlinux
Matched from:
Filename    : /usr/bin/ps
Provide    : /bin/ps

在 AWS 主控台中檢視與 EKS Auto Mode 相關聯的資源

您可以使用 AWS 主控台來檢視與 EKS Auto Mode 叢集相關聯的資源狀態。

EBS 磁碟區
- 搜尋標籤索引鍵來檢視 EKS 自動模式磁碟區 eks:eks-cluster-name
負載平衡器
- 搜尋標籤索引鍵來檢視 EKS Auto Mode 負載平衡器 eks:eks-cluster-name
EC2 執行個體
- 搜尋標籤索引鍵來檢視 EKS Auto Mode 執行個體 eks:eks-cluster-name

檢視您 AWS 帳戶中的 IAM 錯誤

導覽至 CloudTrail 主控台
從左側導覽窗格中選取「事件歷史記錄」
套用錯誤碼篩選條件：
- AccessDenied
- UnauthorizedOperation
- InvalidClientTokenId

尋找與您的 EKS 叢集相關的錯誤。使用錯誤訊息來更新您的 EKS 存取項目、叢集 IAM 角色或節點 IAM 角色。您可能需要將新的政策連接至具有 EKS Auto Mode 許可的這些角色。

故障診斷無法排程至自動模式節點的 Pod

如果 Pod 保持 Pending 狀態且未排程到自動模式節點，請確認您的 Pod 或部署資訊清單是否具有 nodeSelector。如果nodeSelector存在，請確保在 EKS Auto Mode 建立的節點上使用 eks.amazonaws.com/compute-type: auto來排程它。如需 EKS Auto Mode 所用節點標籤的詳細資訊，請參閱控制工作負載是否部署在 EKS Auto Mode 節點上。

對未加入叢集的節點進行故障診斷

EKS Auto Mode 會自動設定具有正確資訊的新 EC2 執行個體來加入叢集，包括叢集端點和叢集憑證授權單位 (CA)。不過，這些執行個體仍然無法將 EKS 叢集加入為節點。執行下列命令來識別未加入叢集的執行個體：

執行 kubectl get nodeclaim 以檢查 NodeClaims 是否為 Ready = False。
```
kubectl get nodeclaim
```
在狀態下執行kubectl describe nodeclaim <node_claim>並查看，以尋找阻止節點加入叢集的任何問題。
```
kubectl describe nodeclaim <node_claim>
```

常見錯誤訊息：

Error getting launch template configs: 如果您使用預設叢集 IAM 角色許可在中設定自訂標籤NodeClass，則可能會收到此錯誤。請參閱了解 EKS Auto Mode 中的身分和存取。
Error creating fleet: 從 RunInstances EC2 API 呼叫時，可能會有一些授權問題。Check AWS CloudTrail 是否有錯誤，請參閱 Amazon EKS Auto Mode 叢集 IAM 角色以取得所需的 IAM 許可。

偵測的節點連線問題 `VPC Reachability Analyzer`

注意

每個執行 VPC Reachability Analyzer 的分析都會向您收取費用。如需定價詳細資訊，請參閱 Amazon VPC 定價。

執行個體未加入叢集的一個原因是網路連線問題，導致執行個體無法連線到 API 伺服器。若要診斷此問題，您可以使用 VPC Reachability Analyzer 來分析無法加入叢集和 API 伺服器之節點之間的連線。您將需要兩個資訊：

無法加入叢集之節點的執行個體 ID
Kubernetes API 伺服器端點的 IP 地址

若要取得執行個體 ID，您需要在叢集上建立工作負載，讓 EKS Auto 模式啟動 EC2 執行個體。這也會在您的叢集中建立具有執行個體 ID 的NodeClaim物件。執行 kubectl get nodeclaim -o yaml以列印叢集NodeClaims中的所有。每個都NodeClaim包含執行個體 ID 做為欄位，並在 providerID 中再次包含：


kubectl get nodeclaim -o yaml

範例輸出如下。


    nodeName: i-01234567890123456
    providerID: aws:///us-west-2a/i-01234567890123456

您可以執行來判斷 Kubernetes API 伺服器端點kubectl get endpoint kubernetes -o yaml。地址位於地址欄位中：


kubectl get endpoints kubernetes -o yaml

範例輸出如下。


apiVersion: v1
kind: Endpoints
metadata:
  name: kubernetes
  namespace: default
subsets:
- addresses:
  - ip: 10.0.143.233
  - ip: 10.0.152.17
  ports:
  - name: https
    port: 443
    protocol: TCP

透過這兩項資訊，您可以執行分析。首先導覽至中的 VPC Reachability Analyzer AWS Management Console。

按一下「建立和分析路徑」
提供分析的名稱（例如「節點聯結失敗」)
針對「來源類型」，選取「執行個體」
輸入失敗節點的執行個體 ID 做為「來源」
對於「路徑目的地」，選取「IP 地址」
輸入 API 伺服器的其中一個 IP 地址做為「目的地地址」
展開「額外封包標頭組態區段」
輸入 443 的「目的地連接埠」
如果尚未選取，請選取「通訊協定」做為 TCP
按一下「建立和分析路徑」
完成分析可能需要幾分鐘的時間。如果分析結果指出連線失敗，則會指出故障在網路路徑中的位置，讓您可以解決問題。

EKS 自動模式節點是以強制執行模式使用 SELinux 設定，可在相同節點上執行的 Pod 之間提供更多隔離。啟用 SELinux 時，大多數非特殊權限 Pod 會自動套用自己的多類別安全 (MCS) 標籤。此 MCS 標籤每個 Pod 都是唯一的，旨在確保一個 Pod 中的程序無法操作任何其他 Pod 或主機上的程序。即使已標記的 Pod 以根目錄執行並可存取主機檔案系統，也無法操作檔案、對主機進行敏感系統呼叫、存取容器執行時間，或取得 kubelet 的私密金鑰材料。

因此，您在嘗試在 Pod 之間共用資料時可能會遇到問題。例如，PersistentVolumeClaim具有存取模式的 ReadWriteOnce仍不允許多個 Pod 同時存取磁碟區。

若要在 Pod 之間啟用此共用，您可以使用 Pod 的 seLinuxOptions在這些 Pod 上設定相同的 MCS 標籤。在此範例中，我們將三個類別指派給 c123,c456,c789 Pod。這不會與節點上指派給 Pod 的任何類別發生衝突，因為只會指派兩個類別。


securityContext:
  seLinuxOptions:
    level: "s0:c123,c456,c789"

在控制平面日誌中檢視 Karpenter 事件

對於已啟用控制平面日誌的 EKS 叢集，您可以透過查詢日誌來深入了解 Karpenter 的動作和決策程序。這對於疑難排解與節點佈建、擴展和終止相關的 EKS Auto Mode 問題特別有用。若要檢視 Karpenter 相關事件，請使用下列 CloudWatch Logs Insights 查詢：

fields @timestamp, @message
| filter @logStream like /kube-apiserver-audit/
| filter @message like 'DisruptionBlocked'
or @message like 'DisruptionLaunching'
or @message like 'DisruptionTerminating'
or @message like 'DisruptionWaitingReadiness'
or @message like 'Unconsolidatable'
or @message like 'FailedScheduling'
or @message like 'NoCompatibleInstanceTypes'
or @message like 'NodeRepairBlocked'
or @message like 'Disrupted'
or @message like 'Evicted'
or @message like 'FailedDraining'
or @message like 'TerminationGracePeriodExpiring'
or @message like 'TerminationFailed'
or @message like 'FailedConsistencyCheck'
or @message like 'InsufficientCapacityError'
or @message like 'UnregisteredTaintMissing'
or @message like 'NodeClassNotReady'
sort @timestamp desc

此查詢會篩選 kube-apiserver 稽核日誌中的特定 Karpenter 相關事件。這些事件包括各種中斷狀態、排程失敗、容量問題和節點相關問題。透過分析這些日誌，您可以更深入了解：

Karpenter 為什麼要採取特定動作。
防止正確佈建、擴展或終止節點的任何問題。
執行個體類型的潛在容量或相容性問題。
節點生命週期事件，例如中斷、移出或終止。

若要使用此查詢：

導覽至 CloudWatch 主控台
從左側導覽窗格中選取「Logs Insights」
選擇 EKS 叢集控制平面日誌的日誌群組
將查詢貼到查詢編輯器
視需要調整時間範圍
執行查詢

結果會顯示 Karpenter 相關事件的時間表，協助您疑難排解問題，並了解叢集中 EKS Auto Mode 的行為。若要檢閱特定節點上的 Karpenter 動作，您可以將下列指定執行個體 ID 的篩選條件新增至上述查詢：

|filter @message like /[.replaceable]`i-12345678910123456`/

注意

若要使用此查詢，必須在 EKS 叢集上啟用控制平面記錄。如果您尚未這麼做，請參閱將控制平面日誌傳送至 CloudWatch Logs。

對自動模式下包含的控制器進行故障診斷

如果控制器發生問題，您應該研究：

如果與該控制器相關聯的資源格式正確且有效。
如果已為您的叢集正確設定 AWS IAM 和 Kubernetes RBAC 資源。如需詳細資訊，請參閱了解 EKS Auto Mode 中的身分和存取。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

聯網

版本備註

EKS Auto 模式故障診斷

注意

節點監控代理程式

使用 EC2 CLI 從 AWS EC2 受管執行個體取得主控台輸出

使用偵錯容器和 CLI kubectl 取得節點日誌

在 AWS 主控台中檢視與 EKS Auto Mode 相關聯的資源

檢視您 AWS 帳戶中的 IAM 錯誤

故障診斷無法排程至自動模式節點的 Pod

對未加入叢集的節點進行故障診斷

偵測 的節點連線問題 VPC Reachability Analyzer

注意

跨 Pod 共用磁碟區

在控制平面日誌中檢視 Karpenter 事件

注意

對自動模式下包含的控制器進行故障診斷

使用偵錯容器和 CLI `kubectl` 取得節點日誌

偵測的節點連線問題 `VPC Reachability Analyzer`