Profilieren und optimieren Sie die Rechenleistung - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Profilieren und optimieren Sie die Rechenleistung

Beim Training von state-of-the-art Deep-Learning-Modellen, die schnell an Größe zunehmen, wird die Skalierung des Trainingsauftrags solcher Modelle auf einen großen GPU-Cluster und die Identifizierung von Rechenleistungsproblemen aufgrund von Milliarden und Billionen von Operationen und Kommunikation in jeder Iteration des Gradientenabstiegs zu einer Herausforderung.

SageMaker KI bietet Tools zur Profilerstellung zur Visualisierung und Diagnose solch komplexer Rechenprobleme, die sich aus der Ausführung von Trainingsaufgaben auf Cloud-Computing-Ressourcen ergeben. AWS SageMaker KI bietet zwei Profilerstellungsoptionen: Amazon SageMaker Profiler und einen Monitor für die Ressourcennutzung in Amazon SageMaker Studio Classic. Sehen Sie sich die folgenden Einführungen der beiden Funktionen an, um einen schnellen Einblick zu erhalten und zu erfahren, welche Sie je nach Ihren Bedürfnissen verwenden sollten.

Amazon SageMaker Profiler

Amazon SageMaker Profiler ist eine SageMaker KI-Profilierungsfunktion, mit der Sie tief in die Rechenressourcen eintauchen können, die beim Training von Deep-Learning-Modellen bereitgestellt werden, und Einblick in Details auf Betriebsebene erhalten. SageMaker Profiler bietet Python-Module zum Hinzufügen von Anmerkungen in PyTorch TensorFlow Trainingsskripten und zum Aktivieren SageMaker von Profiler. Sie können über das SageMaker Python SDK und AWS Deep Learning Containers auf die Module zugreifen.

Mit SageMaker Profiler können Sie alle Aktivitäten bei CPUs und verfolgen GPUs, z. B. CPU- und GPU-Auslastung, Kernelausführungen GPUs, Kernelstarts CPUs, Synchronisierungsvorgänge, Speicheroperationen zwischen CPUs und GPUs, Latenzen zwischen Kernelstarts und entsprechenden Läufen sowie Datenübertragung zwischen und. CPUs GPUs

SageMaker Profiler bietet auch eine Benutzeroberfläche (UI), die das Profil, eine statistische Zusammenfassung der profilierten Ereignisse und den Zeitplan einer Trainingsaufgabe visualisiert, um die zeitliche Beziehung der Ereignisse zwischen und zu verfolgen GPUs und zu verstehen CPUs.

Weitere Informationen über SageMaker Profiler finden Sie unter. Amazon SageMaker Profiler

Überwachen von AWS Rechenressourcen in Amazon SageMaker Studio Classic

SageMaker AI bietet in Studio Classic auch eine Benutzeroberfläche für die Überwachung der Ressourcennutzung auf hoher Ebene, jedoch mit größerer Granularität im Vergleich zu den von SageMaker AI bis CloudWatch gesammelten Standardnutzungsmetriken.

Für jeden Trainingsjob, den Sie mit dem SageMaker Python-SDK in SageMaker KI ausführen, beginnt SageMaker KI mit der Erstellung von Profilen grundlegender Kennzahlen zur Ressourcennutzung, wie CPU-Auslastung, GPU-Auslastung, GPU-Speicherauslastung, Netzwerk und I/O-Wartezeit. Es erfasst diese Kennzahlen zur Ressourcennutzung alle 500 Millisekunden.

Im Vergleich zu CloudWatch Amazon-Metriken, bei denen Metriken in Intervallen von 1 Sekunde erfasst werden, bietet die Überwachungsfunktion von SageMaker KI eine feinere Granularität der Kennzahlen zur Ressourcennutzung in Intervallen von bis zu 100 Millisekunden (0,1 Sekunden), sodass Sie die Metriken auf der Ebene eines Vorgangs oder Schritts eingehend untersuchen können.

Den Zugriff auf das Dashboard zur Überwachung der Kennzahlen zur Ressourcennutzung eines Trainingsjobs finden Sie in der SageMaker KI-Debugger-Benutzeroberfläche in Studio Experiments. SageMaker