Amazon SageMaker HyperPod オブザーバビリティアドオンのトラブルシューティング - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker HyperPod オブザーバビリティアドオンのトラブルシューティング

次のガイダンスを使用して、Amazon SageMaker HyperPod (SageMaker HyperPod) オブザーバビリティアドオンの一般的な問題を解決します。

Amazon Managed Grafana で欠落しているメトリクスのトラブルシューティング

Amazon Managed Grafana ダッシュボードにメトリクスが表示されない場合は、次の手順を実行して問題を特定して解決します。

Amazon Managed Service for Prometheus-Amazon Managed Grafana 接続を確認する

  1. Amazon Managed Grafana コンソールにサインインします。

  2. 左側のペインで、すべてのワークスペースを選択します。

  3. WorkSpaces テーブルで、ワークスペースを選択します。

  4. ワークスペースの詳細ページで、データソースタブを選択します。

  5. Amazon Managed Service for Prometheus データソースが存在することを確認します。

  6. 接続設定を確認します。

    • エンドポイント URL が正しいことを確認します。

    • IAM 認証が正しく設定されていることを確認します。

    • [Test connection] を選択します。ステータスが データソースが機能していることを確認します。

Amazon EKS アドオンのステータスを確認する

  1. https://console.aws.amazon.com/eks/home#/clusters で Amazon EKS コンソールを開きます。

  2. クラスターを選択します。

  3. [アドオン] タブを選択してください。

  4. SageMaker HyperPod オブザーバビリティアドオンが表示され、そのステータスが ACTIVE であることを確認します。

  5. ステータスが ACTIVE でない場合は、エラーメッセージをコピーして にお問い合わせください AWS サポート。

Pod Identity の関連付けを検証する

  1. https://console.aws.amazon.com/eks/home#/clusters で Amazon EKS コンソールを開きます。

  2. クラスターを選択します。

  3. クラスターの詳細ページで、アクセスタブを選択します。

  4. Pod Identity の関連付けテーブルで、次のプロパティ値を持つ関連付けを選択します。

    • 名前空間: hyperpod-observability

    • サービスアカウント: hyperpod-observability-operator-otel-collector

    • アドオン: amazon-sagemaker-hyperpod-observability

  5. この関連付けにアタッチされている IAM ロールに次のアクセス許可があることを確認します。

    { "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:AWS リージョン:account-ID:workspace/workspace-ID" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:AWS リージョン:account-ID:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:AWS リージョン:account-ID:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }

Amazon Managed Service for Prometheus スロットリングを確認する

  1. にサインイン AWS Management Console し、https://console.aws.amazon.com/servicequotas/ で Service Quotas コンソールを開きます。

  2. マネージドクォータボックスで、Amazon Managed Service for Prometheus を検索して選択します。

  3. ワークスペースあたりのアクティブシリーズクォータを選択します。

  4. リソースレベルのクォータタブで、Amazon Managed Service for Prometheus ワークスペースを選択します。

  5. 使用率が現在のクォータ未満であることを確認します。

  6. クォータ制限に達した場合は、左側のラジオボタンを選択してワークスペースを選択し、リソースレベルで引き上げをリクエストを選択します。

アドオンのインストール失敗のトラブルシューティング

オブザーバビリティアドオンのインストールに失敗した場合、次の手順を使用して問題を診断して解決します。

ヘルスプローブのステータスを確認する

  1. https://console.aws.amazon.com/eks/home#/clusters で Amazon EKS コンソールを開きます。

  2. クラスターを選択します。

  3. [アドオン] タブを選択してください。

  4. 失敗したアドオンを選択します。

  5. 「ヘルスの問題」セクションを確認します。

  6. 問題の詳細については、 AWS サポートにお問い合わせください。

マネージャーログを確認する

  1. アドオンマネージャーポッドを取得します。

    kubectl get pods -n hyperpod-observability | grep manager
  2. ログを確認します。

    kubectl logs -n kube-system addon-manager-pod-name

緊急の問題については、 にお問い合わせください AWS サポート。