Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

SageMaker HyperPod ヘルスモニタリングエージェント

フォーカスモード
SageMaker HyperPod ヘルスモニタリングエージェント - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker HyperPod ヘルスモニタリングエージェントは、各 GPU ベースまたは Trainium ベースのインスタンスのヘルスステータスを継続的にモニタリングします。インスタンスまたは GPU の障害を検出すると、エージェントはインスタンスを異常としてマークします。

SageMaker HyperPod ヘルスモニタリングエージェントが行うヘルスチェック

SageMaker HyperPod ヘルスモニタリングエージェントは以下をチェックします。

NVIDIA GPU

  • DCGM ポリシー違反通知

  • nvidia-smi 出力のエラー

  • Amazon Elastic Compute Cloud (EC2) プラットフォームによって生成されたログのさまざまなエラー

AWS Trainium

SageMaker HyperPod ヘルスモニタリングエージェントによって生成されたログ

SageMaker HyperPod ヘルスモニタリングエージェントは、すぐに使用可能なヘルスチェック機能であり、すべての HyperPod クラスターで継続的に実行されます。ヘルスモニタリングエージェントは、検出されたヘルスイベントを GPU または Trn インスタンスでクラスターロググループ /aws/sagemaker/Clusters/ の CloudWatch に発行します。

HyperPod ヘルスモニタリングエージェントの検出ログは、ノードごとに SagemakerHealthMonitoringAgent という名前の別個のログストリームとして作成されます。CloudWatch ログインサイトを使用して、次のように検出ログをクエリできます。

fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/

これにより、次のような出力が返されます。

2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}
プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.