翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon SageMaker HyperPod オブザーバビリティアドオンのトラブルシューティング
次のガイダンスを使用して、Amazon SageMaker HyperPod (SageMaker HyperPod) オブザーバビリティアドオンの一般的な問題を解決します。
Amazon Managed Grafana で欠落しているメトリクスのトラブルシューティング
Amazon Managed Grafana ダッシュボードにメトリクスが表示されない場合は、次の手順を実行して問題を特定して解決します。
Amazon Managed Service for Prometheus-Amazon Managed Grafana 接続を確認する
-
Amazon Managed Grafana コンソールにサインインします。
-
左側のペインで、すべてのワークスペースを選択します。
-
WorkSpaces テーブルで、ワークスペースを選択します。
-
ワークスペースの詳細ページで、データソースタブを選択します。
-
Amazon Managed Service for Prometheus データソースが存在することを確認します。
-
接続設定を確認します。
-
エンドポイント URL が正しいことを確認します。
-
IAM 認証が正しく設定されていることを確認します。
-
[Test connection] を選択します。ステータスが データソースが機能していることを確認します。
-
Amazon EKS アドオンのステータスを確認する
https://console.aws.amazon.com/eks/home#/clusters
で Amazon EKS コンソールを開きます。 -
クラスターを選択します。
-
[アドオン] タブを選択してください。
-
SageMaker HyperPod オブザーバビリティアドオンが表示され、そのステータスが ACTIVE であることを確認します。
-
ステータスが ACTIVE でない場合は、エラーメッセージをコピーして にお問い合わせください AWS サポート。
Pod Identity の関連付けを検証する
https://console.aws.amazon.com/eks/home#/clusters
で Amazon EKS コンソールを開きます。 -
クラスターを選択します。
-
クラスターの詳細ページで、アクセスタブを選択します。
-
Pod Identity の関連付けテーブルで、次のプロパティ値を持つ関連付けを選択します。
-
名前空間:
hyperpod-observability
-
サービスアカウント:
hyperpod-observability-operator-otel-collector
-
アドオン:
amazon-sagemaker-hyperpod-observability
-
-
この関連付けにアタッチされている IAM ロールに次のアクセス許可があることを確認します。
{ "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:
AWS リージョン
:account-ID
:workspace/workspace-ID
" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:AWS リージョン
:account-ID
:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:AWS リージョン
:account-ID
:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
Amazon Managed Service for Prometheus スロットリングを確認する
-
にサインイン AWS Management Console し、https://console.aws.amazon.com/servicequotas/
で Service Quotas コンソールを開きます。 -
マネージドクォータボックスで、Amazon Managed Service for Prometheus を検索して選択します。
-
ワークスペースあたりのアクティブシリーズクォータを選択します。
-
リソースレベルのクォータタブで、Amazon Managed Service for Prometheus ワークスペースを選択します。
-
使用率が現在のクォータ未満であることを確認します。
-
クォータ制限に達した場合は、左側のラジオボタンを選択してワークスペースを選択し、リソースレベルで引き上げをリクエストを選択します。
アドオンのインストール失敗のトラブルシューティング
オブザーバビリティアドオンのインストールに失敗した場合、次の手順を使用して問題を診断して解決します。
ヘルスプローブのステータスを確認する
-
https://console.aws.amazon.com/eks/home#/clusters
で Amazon EKS コンソールを開きます。 -
クラスターを選択します。
-
[アドオン] タブを選択してください。
-
失敗したアドオンを選択します。
-
「ヘルスの問題」セクションを確認します。
-
問題の詳細については、 AWS サポートにお問い合わせください。
マネージャーログを確認する
-
アドオンマネージャーポッドを取得します。
kubectl get pods -n hyperpod-observability | grep manager
-
ログを確認します。
kubectl logs -n kube-system
addon-manager-pod-name
緊急の問題については、 にお問い合わせください AWS サポート。