本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
以下部分列出了 Studio HyperPod 中的故障排除解决方案。
“任务” 选项卡
如果您获得 “自定义资源定义 (CRD)”,则在 “任务” 选项卡中未在集群上配置
。
-
向您的域名执行角色授予
EKSAdminViewPolicy
和ClusterAccessRole
政策。有关如何为执行角色添加标签的信息,请参阅为 IAM 角色添加标签。
要了解如何向 IAM 用户或群组关联策略,请参阅添加和删除 IAM 身份权限。
如果 Slurm 指标的任务网格没有停止在 “任务” 选项卡中加载。
-
确保在
RunAs
Sessi AWS on Manager 首选项中启用该选项,并且您正在使用的角色已附加SSMSessionRunAs
标签。-
要启用
RunAs
,请导航到 S ystems Manager 控制台中的 “首选项” 选项卡。
-
对于适用于 EKS 集群的 Studio 中的受限任务视图:
-
如果您的执行角色无权列出 EKS 集群的命名空间。
-
如果用户在访问 EKS 集群时遇到问题。
-
运行以下 AWS CLI 命令验证 RBAC 是否已启用。
kubectl api-versions | grep rbac
这应该返回 rbac.authorization.k8s.io/v1。
-
运行以下命令检查
ClusterRole
和是否ClusterRoleBinding
存在。kubectl get clusterrole pods-events-crd-cluster-role kubectl get clusterrolebinding pods-events-crd-cluster-role-binding
-
验证用户组成员资格。确保用户已正确分配到您的身份提供商或 IAM 中的
pods-events-crd-cluster-level
群组。
-
-
如果用户看不到任何资源。
-
验证群组成员资格并确保
ClusterRoleBinding
正确应用。
-
-
如果用户可以看到所有命名空间中的资源。
-
如果需要限制命名空间,可以考虑使用
Role
和RoleBinding
代替ClusterRole
和ClusterRoleBinding
。
-
-
如果配置显示正确,但未应用权限。
-
检查是否存在访问
NetworkPolicies
或PodSecurityPolicies
干扰访问权限。
-
“指标”选项卡
如果没有 Amazon CloudWatch 指标,则会在 “指标” 选项卡中显示。
-
HyperPod 集群详细信息
Metrics
部分 CloudWatch 用于获取数据。要查看本节中的指标,您需要启用集群可观测性。请联系您的管理员配置指标。