Debuggen und die Modellleistung verbessern - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Debuggen und die Modellleistung verbessern

Der Schwerpunkt des Trainings von Machine-Learning-Modellen, neuronalen Deep-Learning-Netzwerken und Transformer-Modellen besteht darin, state-of-the-art eine stabile Modellkonvergenz zu erreichen, und daher haben Modelle Millionen, Milliarden oder Billionen von Modellparametern. Die Anzahl der Operationen zur Aktualisierung der gigantischen Anzahl von Modellparametern während jeder Iteration kann leicht astronomisch werden. Um Probleme mit der Modellkonvergenz zu identifizieren, ist es wichtig, auf die Modellparameter, Aktivierungen und Gradienten zugreifen zu können, die während der Optimierungsprozesse berechnet wurden.

Amazon SageMaker bietet zwei Debugging-Tools, mit denen Sie solche Konvergenzprobleme identifizieren und Einblicke in Ihre Modelle erhalten können.

Amazon SageMaker mit TensorBoard

Um eine größere Kompatibilität mit den Open-Source-Community-Tools innerhalb der SageMaker Trainingsplattform zu gewährleisten, SageMaker hostet TensorBoard als Anwendung in der SageMaker Domain . Sie können Ihre Trainingsjobs zu bringen SageMaker und weiterhin den TensorBoard zusammenfassenden Writer verwenden, um die Modellausgabetensoren zu sammeln. Da in SageMaker Domain implementiert TensorBoard ist, bietet es Ihnen auch mehr Optionen, Benutzerprofile unter der SageMaker Domain in Ihrem AWS Konto zu verwalten, und bietet eine detaillierte Kontrolle über die Benutzerprofile, indem Zugriff auf bestimmte Aktionen und Ressourcen gewährt wird. Weitere Informationen hierzu finden Sie unter Wird TensorBoard zum Debuggen und Analysieren von Trainingsjobs in Amazon verwendet SageMaker.

Amazon SageMaker Debugger

Amazon SageMaker Debugger ist eine Funktion von SageMaker , die Tools zur Registrierung von Hooks für Callbacks bereitstellt, um Modellausgabetensoren zu extrahieren und in Amazon Simple Storage Service zu speichern. Es bietet integrierte Regeln zur Erkennung von Problemen mit der Modellkonvergenz, wie z. B. Überanpassung, gesättigte Aktivierungsfunktionen, verschwindende Farbverläufe und mehr. Sie können die integrierten Regeln auch mit Amazon CloudWatch Events und für automatisierte Aktionen AWS Lambda gegen erkannte Probleme einrichten und Amazon Simple Notification Service für den Empfang von E-Mail- oder Textbenachrichtigungen einrichten. Weitere Informationen hierzu finden Sie unter Verwenden Sie Amazon SageMaker Debugger zum Debuggen und Verbessern der Modellleistung.