Überwachen der Nutzung von AWS Rechenressourcen in Amazon SageMaker Studio Classic - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überwachen der Nutzung von AWS Rechenressourcen in Amazon SageMaker Studio Classic

Verwenden Sie die von Amazon SageMaker Debugger angebotenen Überwachungstools, um die Auslastung der Rechenressourcen Ihres Trainingsauftrags zu verfolgen.

Für jeden Trainingsauftrag, den Sie SageMaker mit dem SageMaker Python-SDK in ausführen, sammelt der Debugger alle 500 Millisekunden grundlegende Metriken zur Ressourcenauslastung, z. B. CPU-Auslastung, GPU-Auslastung, GPU-Speicherauslastung, Netzwerk und I/O-Wartezeit. Um die Dashbard der Metriken zur Ressourcenauslastung Ihres Trainingsauftrags anzuzeigen, verwenden Sie einfach die SageMaker Debugger-Benutzeroberfläche in SageMaker Studio Experiments.

Deep-Learning-Operationen und -Schritte können in Intervallen von Millisekunden ausgeführt werden. Im Vergleich zu Amazon- CloudWatch Metriken, die Metriken in Intervallen von 1 Sekunde erfassen, bietet der Debugger eine feinere Granularität der Metriken zur Ressourcenauslastung bis zu Intervallen von 100 Millisekunden (0,1 Sekunde), sodass Sie die Metriken auf der Ebene einer Operation oder eines Schritts eingehender untersuchen können.

Wenn Sie das Zeitintervall für die Metrikerfassung ändern möchten, können Sie Ihrem Schulungsauftrag Launcher einen Parameter für die Profilkonfiguration hinzufügen. Wenn Sie beispielsweise das SageMaker Python SDK verwenden, müssen Sie den profiler_config Parameter übergeben, wenn Sie ein Schätzerobjekt erstellen. Informationen zur Anpassung des Erfassungsintervalls der Metriken zur Ressourcenauslastung finden Sie unter Codevorlage für die Konfiguration eines SageMaker Estimator-Objekts mit den SageMaker Debugger-Python-Modulen in Python SageMaker SDK und dann Konfigurieren Sie Einstellungen für die grundlegende Profilerstellung der Systemressourcenauslastung.

Darüber hinaus können Sie Tools zur Erkennung von Problemen hinzufügen, die vom SageMaker Debugger bereitgestellt werden und als integrierte Profilerstellungsregeln bezeichnet werden. Die integrierten Profilerstellungsregeln führen Analysen anhand der Kennzahlen zur Ressourcenauslastung durch und erkennen Probleme mit der Rechenleistung. Weitere Informationen finden Sie unter Verwenden Sie integrierte Profiler-Regeln, die von Amazon SageMaker Debugger verwaltet werden. Sie können die Ergebnisse der Regelanalyse über die SageMaker Debugger-Benutzeroberfläche in SageMaker Studio Experiments oder den SageMaker Debugger Profiling Report erhalten. Sie können auch benutzerdefinierte Profilerstellungsregeln mit dem SageMaker Python SDK erstellen.

Weitere Informationen zur Überwachung von Funktionen, die von SageMaker Debugger bereitgestellt werden, finden Sie in den folgenden Themen.