帮助改进此页面
想为本用户指南做出贡献? 选择位于每个页面右侧窗格中的在 GitHub 上编辑此页面链接。您的贡献有助于我们的用户指南为每个人提供更充分的参考。
Amazon EKS 控制台包含一个可观测性仪表板,可供您了解集群的性能。此仪表板中的信息有助于快速检测、排除故障和修复问题。在运行状况和性能摘要中选择一项即可打开仪表板的相应部分。此摘要包含在多个地方,包括可观测性选项卡。
仪表板分为几个选项卡。
摘要
运行状况和性能摘要列出了不同类别项目的数量。每个数字都充当指向仪表板某个位置的超链接,其中包含该类别的列表。
集群运行状况问题
集群运行状况问题是需要注意的重要通知,您可能需要尽快对其中部分通知采取措施。通过此列表,您可以查看描述和受影响的资源。要刷新状态,请选择刷新按钮(↻)。
有关更多信息,请参阅集群运行状况常见问题解答和错误代码以及解析路径。
控制面板监控
控制面板监控选项卡分为三个部分,每个部分均可帮助您监控集群的控制面板并对其进行故障排除。
Metrics
对于 Kubernetes 版本 1.28
及更高版本的集群,指标部分会显示为各种控制面板组件收集的多个指标的图表。
您可以通过在该部分的顶部进行选择来设置每个图表 X 轴所用的时间段。您可以使用刷新按钮(↻)刷新数据。对于每个单独的图表,垂直省略号按钮(⋮)会打开一个菜单,其中包含来自 CloudWatch 的选项。
这些指标以及更多指标会自动作为 AWS/EKS
命名空间下的 CloudWatch 中的基本监控指标提供。有关更多信息,请参阅《Amazon CloudWatch 用户指南》中的基本监控和详细监控。要获取更多详细的指标、可视化和洞察,请参阅《Amazon CloudWatch 用户指南》中的 Container Insights。或者,如果您更喜欢基于 Prometheus 的监控,请参阅 使用 Prometheus 监控集群指标。
下表列出了可用指标。
指标 | 描述 |
---|---|
APIServer 请求 |
每分钟向 API 服务器发出的请求。 |
APIServer 请求总数 4XX |
发生 HTTP 4XX 响应代码(客户端错误)的 API 服务器请求数。 |
APIServer 请求总数 5XX |
发生 HTTP 5XX 响应代码(服务器端错误)的 API 服务器请求数。 |
APIServer 请求总数 429 |
发生 HTTP 429 响应代码(请求过多)的 API 服务器请求数。 |
存储大小 |
存储数据库 ( |
调度器尝试 |
尝试按结果“不可调度”、“错误”和“已调度”调度容器组(pod)的次数。 |
待处理容器组(pod) |
按队列类型“活跃”、“退避”、“不可调度”和“受限”分列的待处理容器组(pod)数量。 |
API 服务器请求延迟 |
API 服务器请求的延迟。 |
API 服务器当前的传输中请求 |
当前对 API 服务器的传输中请求。 |
Webhook 请求 |
每分钟 Webhook 请求数。 |
Webhook 请求拒绝 |
被拒绝的 Webhook 请求数。 |
Webhook 请求延迟 P99 |
外部第三方 Webhook 请求的第 99 个百分位延迟。 |
CloudWatch Log Insights
CloudWatch Log Insights 部分根据控制面板审计日志显示各种列表。需要打开 Amazon EKS 控制面板日志才能使用此功能,您可以在查看 CloudWatch 中的控制面板日志部分执行此操作。
经过足够的时间来收集数据后,您可以运行所有查询,也可以选择运行查询一次获取单个列表。每当您运行查询时,CloudWatch 均会产生额外费用。选择要在该部分顶部查看结果的时间段。如果您想对任何查询进行更高级的控制,可以选择在 CloudWatch 中查看。这将允许您根据需求更新 CloudWatch 中的查询。
有关更多信息,请参阅《Amazon CloudWatch Logs 用户指南》中的使用 CloudWatch Logs Insights 分析日志数据。
在 CloudWatch 中查看控制面板日志
选择管理日志记录即可更新可用的日志类型。启用日志记录后,日志需要几分钟才能显示在 CloudWatch Logs 中。经过足够的时间,选择本节中的任何查看链接即可导航到适用的日志。
有关更多信息,请参阅 将控制面板日志发送到 CloudWatch Logs。
集群见解
升级洞察表既显示了问题又建议了纠正措施,从而加快了升级到新版 Kubernetes 的验证过程。Amazon EKS 会根据可能影响 Kubernetes 版本升级的问题列表自动扫描集群。升级洞察表列出了 Amazon EKS 针对该集群执行的洞察检查及其相关状态。
根据对 Kubernetes 项目变更以及与新版本相关的 Amazon EKS 服务变更的评估,Amazon EKS 维护并定期刷新待执行的洞察检查列表。Amazon EKS 控制台自动刷新每个洞察的状态,这可以在上次刷新时间列看到。
有关更多信息,请参阅 利用集群见解为 Kubernetes 版本升级做好准备。
节点运行状况问题
Amazon EKS 节点监控代理会自动读取节点日志以检测运行状况问题。无论使用哪种自动修复设置,节点监控代理都会报告所有节点运行状况问题,以便您可以根据需要进行调查。如果列出的问题类型没有描述,则可以在其弹出框元素中阅读描述。
刷新页面后,所有已解决的问题都将从列表中消失。如果启用了自动修复,则可能会暂时看到某些无需您执行任何操作即可解决的运行状况问题。不支持自动修复的问题可能需要您手动操作,具体取决于其类型。
要报告节点运行状况问题,集群必须使用 Amazon EKS 自动模式或安装了节点监控代理附加组件。有关更多信息,请参阅 启用节点自动修复并调查节点运行状况问题。