本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用以下信息进行设置 Amazon A SageMaker HyperPod mazon Obs CloudWatch ervability EKS 附加组件。这将为您设置一个详细的可视化仪表板,该仪表板可让您查看您的 EKS 集群硬件、团队分配和任务的指标。
如果您在设置时遇到问题,请参阅以故障排除获取已知的故障排除解决方案。
HyperPodAmazon CloudWatch 可观察性 EKS 附加组件先决条件
以下部分包括安装 Amazon EKS 可观察性附加组件之前所需的先决条件。
-
如果您尚未这样做,请按照中的说明进行操作,集群管理员的 IAM 用户以确保您拥有执行 HyperPod 群集管理任务的最低权限。
-
将
CloudWatchAgentServerPolicy
IAM 策略附加到您的工作节点上。为此,请输入以下命令。
替换为您的 Kubernetes 工作节点使用的 IAM 角色。my-worker-node-role
aws iam attach-role-policy \ --role-name
my-worker-node-role
\ --policy-arn arn:aws:iam::aws:policy/CloudWatchAgentServerPolicy
HyperPod Amazon CloudWatch 可观察性 EKS 附加组件设置
使用以下选项设置 Amazon A SageMaker HyperPod mazon Obs CloudWatch ervability EKS 附加组件。
设置和可视化 HyperPod 任务管理仪表板需要以下权限。本节扩展了中列出的权限集群管理员的 IAM 用户。
要管理任务监管,请使用示例策略:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"sagemaker:ListClusters",
"sagemaker:DescribeCluster",
"sagemaker:ListComputeQuotas",
"sagemaker:CreateComputeQuota",
"sagemaker:UpdateComputeQuota",
"sagemaker:DescribeComputeQuota",
"sagemaker:DeleteComputeQuota",
"sagemaker:ListClusterSchedulerConfigs",
"sagemaker:DescribeClusterSchedulerConfig",
"sagemaker:CreateClusterSchedulerConfig",
"sagemaker:UpdateClusterSchedulerConfig",
"sagemaker:DeleteClusterSchedulerConfig",
"eks:ListAddons",
"eks:CreateAddon",
"eks:DescribeAddon",
"eks:DescribeCluster",
"eks:DescribeAccessEntry",
"eks:ListAssociatedAccessPolicies",
"eks:AssociateAccessPolicy",
"eks:DisassociateAccessPolicy"
],
"Resource": "*"
}
]
}
要授予管理 Amazon O CloudWatch bservability Amazon EKS 和通过 SageMaker AI 控制台查看 HyperPod 集群控制面板的权限,请使用以下示例策略:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"eks:ListAddons",
"eks:CreateAddon",
"eks:UpdateAddon",
"eks:DescribeAddon",
"eks:DescribeAddonVersions",
"sagemaker:DescribeCluster",
"sagemaker:DescribeClusterNode",
"sagemaker:ListClusterNodes",
"sagemaker:ListClusters",
"sagemaker:ListComputeQuotas",
"sagemaker:DescribeComputeQuota",
"sagemaker:ListClusterSchedulerConfigs",
"sagemaker:DescribeClusterSchedulerConfig",
"eks:DescribeCluster",
"cloudwatch:GetMetricData",
"eks:AccessKubernetesApi"
],
"Resource": "*"
}
]
}
导航到控制台中的 “ SageMaker HyperPod 控制面板” 选项卡以安装 Amazon O CloudWatch bservability EKS。要确保控制面板中包含与任务治理相关的指标,请启用 Kueue 指标复选框。在达到免费套餐限制后,启用 Kueue CloudWatch 指标会启用指标费用。有关更多信息,请参阅 Amazon CloudWatch 定价
成功安装 EKS Observability 插件后,您可以在控制台的 “ HyperPod 控制面板” 选项卡下查看您的 EKS 集群指标。