选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

故障排除

聚焦模式
故障排除 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

以下部分列出了 Studio HyperPod 中的故障排除解决方案。

“任务” 选项卡

如果您获得 “自定义资源定义 (CRD)”,则在 “任务” 选项卡中未在集群上配置

  • 向您的域名执行角色授予EKSAdminViewPolicyClusterAccessRole政策。

    有关如何为执行角色添加标签的信息,请参阅为 IAM 角色添加标签

    要了解如何向 IAM 用户或群组关联策略,请参阅添加和删除 IAM 身份权限

如果 Slurm 指标的任务网格没有停止在 “任务” 选项卡中加载。

对于适用于 EKS 集群的 Studio 中的受限任务视图:

  • 如果您的执行角色无权列出 EKS 集群的命名空间。

  • 如果用户在访问 EKS 集群时遇到问题。

    1. 运行以下 AWS CLI 命令验证 RBAC 是否已启用。

      kubectl api-versions | grep rbac

      这应该返回 rbac.authorization.k8s.io/v1。

    2. 运行以下命令检查ClusterRole和是否ClusterRoleBinding存在。

      kubectl get clusterrole pods-events-crd-cluster-role kubectl get clusterrolebinding pods-events-crd-cluster-role-binding
    3. 验证用户组成员资格。确保用户已正确分配到您的身份提供商或 IAM 中的pods-events-crd-cluster-level群组。

  • 如果用户看不到任何资源。

    • 验证群组成员资格并确保ClusterRoleBinding正确应用。

  • 如果用户可以看到所有命名空间中的资源。

    • 如果需要限制命名空间,可以考虑使用RoleRoleBinding代替ClusterRoleClusterRoleBinding

  • 如果配置显示正确,但未应用权限。

    • 检查是否存在访问NetworkPoliciesPodSecurityPolicies干扰访问权限。

“指标”选项卡

如果没有 Amazon CloudWatch 指标,则会在 “指标” 选项卡中显示。

  • HyperPod 集群详细信息Metrics部分 CloudWatch 用于获取数据。要查看本节中的指标,您需要启用集群可观测性。请联系您的管理员配置指标。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。