Managen Sie Machine-Learning-Experimente mit Amazon SageMaker mit MLflow - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Managen Sie Machine-Learning-Experimente mit Amazon SageMaker mit MLflow

Amazon SageMaker with MLflow ist eine Funktion von Amazon SageMaker , mit der Sie Ihre Machine-Learning-Experimente erstellen, verwalten, analysieren und vergleichen können.

Experimentieren mit maschinellem Lernen

Maschinelles Lernen ist ein iterativer Prozess, bei dem mit verschiedenen Kombinationen von Daten, Algorithmen und Parametern experimentiert und gleichzeitig deren Auswirkungen auf die Modellgenauigkeit beobachtet werden müssen. Der iterative Charakter von ML-Experimenten führt zu zahlreichen Modelltrainingsläufen und -versionen, was es schwierig macht, die leistungsstärksten Modelle und ihre Konfigurationen zu verfolgen. Die Komplexität der Verwaltung und des Vergleichs iterativer Trainingsläufe nimmt mit generativer künstlicher Intelligenz (generative KI) zu, bei der Experimente nicht nur die Feinabstimmung von Modellen, sondern auch die Untersuchung kreativer und vielfältiger Ergebnisse beinhalten. Forscher müssen Hyperparameter anpassen, geeignete Modellarchitekturen auswählen und verschiedene Datensätze kuratieren, um sowohl die Qualität als auch die Kreativität der generierten Inhalte zu optimieren. Die Bewertung generativer KI-Modelle erfordert sowohl quantitative als auch qualitative Metriken, was den Experimentierprozess um eine weitere Ebene der Komplexität erhöht.

Verwenden Sie MLflow mit Amazon, SageMaker um iterative ML-Experimente zu verfolgen, zu organisieren, anzuzeigen, zu analysieren und zu vergleichen, um vergleichende Erkenntnisse zu gewinnen und Ihre leistungsstärksten Modelle zu registrieren und einzusetzen.

MLflow-Integrationen

Verwenden Sie MLflow beim Training und der Evaluierung von Modellen, um die besten Kandidaten für Ihren Anwendungsfall zu finden. Sie können die Modellleistung, Parameter und Metriken verschiedener Experimente in der MLflow-Benutzeroberfläche vergleichen, Ihre besten Modelle in der MLflow-Modellregistrierung verfolgen, sie automatisch als SageMaker Modell registrieren und registrierte Modelle auf Endpunkten bereitstellen. SageMaker

Amazon SageMaker mit MLflow

Verwenden Sie MLflow, um die Experimentierphase des maschinellen Lernens (ML) mit AWS Integrationen für Modellentwicklung, Verwaltung, Bereitstellung und Nachverfolgung zu verfolgen und zu verwalten.

Amazon SageMaker Studio

Erstellen und verwalten Sie Tracking-Server, führen Sie Notizbücher aus, um Experimente zu erstellen, und greifen Sie auf die MLflow-Benutzeroberfläche zu, um Experimentläufe in Studio anzuzeigen und zu vergleichen.

SageMaker Modellregistrierung

Verwalten Sie Modellversionen und Katalogmodelle für die Produktion, indem Sie Modelle automatisch aus MLflow Model Registry in Model Registry registrieren. SageMaker Weitere Informationen finden Sie unter Registrieren Sie SageMaker Modelle automatisch bei SageMaker Model Registry.

SageMaker Inferenz

Bereiten Sie Ihre besten Modelle für die Bereitstellung auf einem SageMaker Endpunkt vor, indem SieModelBuilder. Weitere Informationen finden Sie unter Stellen Sie MLflow-Modelle bereit mit ModelBuilder.

AWS Identity and Access Management

Konfigurieren Sie den Zugriff auf MLflow mithilfe der rollenbasierten Zugriffskontrolle (RBAC) mit IAM. Schreiben Sie IAM-Identitätsrichtlinien, um die MLflow-APIs zu autorisieren, die von einem Client eines MLFlow-Tracking-Servers aufgerufen werden können. Alle MLflow-REST-APIs werden als IAM-Aktionen unter dem Servicepräfix dargestellt. sagemaker-mlflow Weitere Informationen finden Sie unter Richten Sie IAM-Berechtigungen für MLflow ein.

AWS CloudTrail

AWS CloudTrail View-Logins helfen Ihnen bei der Durchführung von Betriebs- und Risikoprüfungen, Governance und Compliance Ihres AWS Kontos. Weitere Informationen finden Sie unter AWS CloudTrail Logs.

Amazon EventBridge

Automatisieren Sie die Modellüberprüfung und den Bereitstellungszyklus mithilfe von MLflow-Ereignissen, die von Amazon EventBridge erfasst wurden. Weitere Informationen finden Sie unter EventBridge Amazon-Veranstaltungen.

Unterstützt AWS-Regionen

Amazon SageMaker mit MLflow ist generell in allen AWS kommerziellen Regionen verfügbar, in denen Amazon SageMaker Studio verfügbar ist, mit Ausnahme der Regionen und AWS GovCloud (US) Regionen Chinas. SageMakerwith MLflow ist nur in Europa (Zürich), AWS CLI im asiatisch-pazifischen Raum (Hyderabad), im asiatisch-pazifischen Raum (Melbourne) und in Kanada West (Calgary) verfügbar. AWS-Regionen

Tracking-Server werden in einer einzigen Verfügbarkeitszone innerhalb der angegebenen Region gestartet.

Funktionsweise

Ein MLflow Tracking Server besteht aus drei Hauptkomponenten: Rechenleistung, Backend-Metadatenspeicher und Artefaktspeicher. Die Rechenleistung, die den Tracking-Server hostet, und der Backend-Metadatenspeicher werden sicher im Dienstkonto gehostet. SageMaker Der Artefaktspeicher befindet sich in einem Amazon S3 S3-Bucket in Ihrem eigenen AWS Konto.

Ein Diagramm, das zeigt, dass sich der Rechen- und Metadatenspeicher für einen MLflow Tracking Server im SageMaker Servicekonto und der Artefaktspeicher für einen MLflow Tracking Server in einem Amazon S3 S3-Bucket im Kundenkonto befindet.

Ein Tracking-Server hat einen ARN. Sie können diesen ARN verwenden, um das MLflow SDK mit Ihrem Tracking Server zu verbinden und damit zu beginnen, Ihre Trainingsläufe in MLflow zu protokollieren.

Lesen Sie weiter, um weitere Informationen zu den folgenden Schlüsselkonzepten zu erhalten:

Speicherung von Backend-Metadaten

Wenn Sie einen MLflow Tracking Server erstellen, wird ein Backend-Speicher, der verschiedene Metadaten für jeden Lauf speichert, wie Lauf-ID, Start- und Endzeiten, Parameter und Metriken, automatisch innerhalb des SageMaker Dienstkontos konfiguriert und vollständig für Sie verwaltet.

Aufbewahrung von Artefakten

Um MLflow persistenten Speicher für Metadaten für jeden Lauf bereitzustellen, z. B. Modellgewichte, Bilder, Modelldateien und Datendateien für Ihre Experimentläufe, müssen Sie mit Amazon S3 einen Artefaktspeicher erstellen. Der Artefaktspeicher muss in Ihrem AWS Konto eingerichtet sein und Sie müssen MLflow ausdrücklich Zugriff auf Amazon S3 gewähren, um auf Ihren Artefaktspeicher zugreifen zu können. Weitere Informationen finden Sie unter Artifact Stores in der MLflow-Dokumentation.

Größen des MLflow Tracking Servers

Sie können optional die Größe Ihres Tracking-Servers in der Studio-Benutzeroberfläche oder mit dem AWS CLI Parameter angeben--tracking-server-size. Sie können zwischen "Small""Medium", und wählen"Large". Die Standardgröße für die Konfiguration des MLflow Trackingservers ist"Small". Sie können eine Größe wählen, die von der voraussichtlichen Nutzung des Tracking-Servers abhängt, z. B. von der Menge der protokollierten Daten, der Anzahl der Benutzer und der Nutzungshäufigkeit.

Wir empfehlen die Verwendung eines kleinen Trackingservers für Teams mit bis zu 25 Benutzern, eines mittleren Trackingservers für Teams mit bis zu 50 Benutzern und eines großen Trackingservers für Teams mit bis zu 100 Benutzern. Wir gehen davon aus, dass alle Benutzer gleichzeitig Anfragen an Ihren MLflow Tracking Server stellen, um diese Empfehlungen abzugeben. Sie sollten die Größe des Tracking-Servers auf der Grundlage Ihres erwarteten Nutzungsmusters und der von jedem Tracking-Server unterstützten TPS (Transactions Per Second) auswählen.

Anmerkung

Welches TPS angezeigt wird, hängt von der Art Ihrer Arbeitslast und der Art der Anfragen, die Sie an den Tracking-Server stellen, ab.

Größe des Tracking-Servers Anhaltendes TPS Burst TPS
Small Bis zu 25 Bis zu 50
Mittelschwer Bis zu 50 Bis zu 100
Large (Groß) Bis zu 100 Bis zu 200

Serverversionen verfolgen

Die folgenden MLflow-Versionen stehen zur Verwendung mit SageMaker zur Verfügung:

MLflow-Version Python-Version
MLflow 2.13.2 Python 3.8 oder höher

AWS CloudTrail Logs

AWS CloudTrail protokolliert automatisch Aktivitäten im Zusammenhang mit Ihrem MLflow Tracking Server. Die folgenden API-Aufrufe sind protokolliert: CloudTrail

  • CreateMlflowTrackingServer

  • DescribeMlflowTrackingServer

  • UpdateMlflowTrackingServer

  • DeleteMlflowTrackingServer

  • ListMlflowTrackingServers

  • CreatePresignedMlflowTrackingServer

  • StartMlflowTrackingServer

  • StopMlflowTrackingServer

Weitere Informationen zu CloudTrail finden Sie im AWS CloudTrail Benutzerhandbuch.

EventBridge Amazon-Veranstaltungen

Wird verwendet EventBridge , um Ereignisse von der Verwendung von MLflow mit SageMaker an Verbraucheranwendungen in Ihrem Unternehmen weiterzuleiten. Die folgenden Ereignisse werden gesendet an EventBridge:

  • „SageMaker Tracking-Server wird erstellt“

  • „SageMaker Tracking-Server wurde erstellt“

  • „Die Erstellung des SageMaker Tracking-Servers ist fehlgeschlagen“

  • „Aktualisierung des SageMaker Tracking-Servers“

  • „SageMaker Tracking-Server aktualisiert“

  • „Aktualisierung des SageMaker Tracking-Servers fehlgeschlagen“

  • „SageMaker Tracking-Server wird gelöscht“

  • „Der SageMaker Tracking-Server wurde gelöscht“

  • „Das Löschen des SageMaker Tracking-Servers ist fehlgeschlagen“

  • „Der SageMaker Tracking-Server wird gestartet“

  • „Der SageMaker Tracking-Server wurde gestartet“

  • „Der Start des SageMaker Tracking-Servers ist fehlgeschlagen“

  • „Der SageMaker Tracking-Server wird gestoppt“

  • „Der SageMaker Tracking-Server wurde gestoppt“

  • „Stopp des SageMaker Tracking-Servers fehlgeschlagen“

  • „Serverwartung wird SageMaker verfolgt“

  • „Wartung des SageMaker Tracking-Servers abgeschlossen“

  • „Die Wartung des SageMaker Tracking-Servers ist fehlgeschlagen“

  • „SageMaker MLflow Tracking Server wird erstellt“

  • „SageMaker MLflow Tracking Server wird erstellt“ RegisteredModel

  • „SageMaker MLflow Tracking Server wird erstellt“ ModelVersion

  • „SageMaker ModelVersion Übergangsphase des MLflow Tracking Servers“

  • „SageMaker MLflow Tracking Server setzt registrierten Modell-Alias ein“

Weitere Informationen zu EventBridge finden Sie im EventBridge Amazon-Benutzerhandbuch.