SageMaker Autopilot

Wichtig

Ab dem 30. November 2023 wird die Benutzeroberfläche von Autopilot im Rahmen der aktualisierten Amazon SageMaker Studio-Erfahrung auf Amazon Canvas migriert. SageMaker SageMaker Canvas bietet Analysten und Citizen Data Scientists Funktionen ohne Programmierkenntnisse für Aufgaben wie Datenaufbereitung, Feature-Engineering, Algorithmusauswahl, Schulung und Optimierung, Inferenz und mehr. Benutzer können integrierte Visualisierungen und Was-wäre-wenn-Analysen nutzen, um ihre Daten und verschiedene Szenarien zu untersuchen. Automatisierte Prognosen ermöglichen es ihnen, ihre Modelle einfach zu produzieren. Canvas unterstützt eine Vielzahl von Anwendungsfällen, darunter Computer Vision, Bedarfsprognosen, intelligente Suche und generative KI.

Benutzer von Amazon SageMaker Studio Classic, der vorherigen Erfahrung von Studio, können die Autopilot-Benutzeroberfläche in Studio Classic weiterhin verwenden. Benutzer mit Programmiererfahrung können weiterhin alle API-Referenzen in jedem unterstützten SDK für die technische Implementierung verwenden.

Wenn Sie bisher Autopilot in Studio Classic verwendet haben und zu SageMaker Canvas migrieren möchten, müssen Sie Ihrem Benutzerprofil oder Ihrer IAM-Rolle möglicherweise zusätzliche Berechtigungen gewähren, damit Sie die Canvas-Anwendung erstellen und verwenden können. SageMaker Weitere Informationen finden Sie unter (Optional) Migrieren Sie von Autopilot in Studio Classic zu Canvas SageMaker .

Alle UI-bezogenen Anweisungen in diesem Handbuch beziehen sich auf die eigenständigen Funktionen von Autopilot vor der Migration zu Amazon Canvas. SageMaker Benutzer, die diese Anweisungen befolgen, sollten Studio Classic verwenden.

Amazon SageMaker Autopilot ist ein Funktionsumfang, der verschiedene Phasen des Workflows für maschinelles Lernen vereinfacht und beschleunigt, indem der Prozess der Erstellung und Bereitstellung von Modellen für maschinelles Lernen (AutoML) automatisiert wird. Auf der folgenden Seite werden die wichtigsten Informationen zu Amazon SageMaker Autopilot erklärt.

Der Autopilot führt die folgenden Hauptaufgaben aus, die Sie mit dem Autopiloten oder mit unterschiedlichem Grad menschlicher Führung ausführen können:

Datenanalyse und Vorverarbeitung: Der Autopilot identifiziert Ihren spezifischen Problemtyp, verarbeitet fehlende Werte, normalisiert Ihre Daten, wählt Merkmale aus und bereitet die Daten insgesamt für das Modelltraining vor.
Modellauswahl: Der Autopilot untersucht eine Vielzahl von Algorithmen und verwendet ein Resampling-Verfahren zur Kreuzvalidierung, um Metriken zu generieren, mit denen die Vorhersagequalität der Algorithmen auf der Grundlage vordefinierter objektiver Metriken bewertet wird.
Hyperparameter-Optimierung: Der Autopilot automatisiert die Suche nach optimalen Hyperparameter-Konfigurationen.
Modelltraining und Bewertung: Der Autopilot automatisiert den Prozess des Trainings und der Bewertung verschiedener Modellkandidaten. Er teilt die Daten in Trainings- und Validierungssätze auf, trainiert die ausgewählten Modellkandidaten anhand der Trainingsdaten und bewertet ihre Leistung anhand der unsichtbaren Daten des Validierungssatzes. Schließlich werden die optimierten Modellkandidaten anhand ihrer Leistung eingestuft und das Modell mit der besten Leistung identifiziert.
Modellbereitstellung: Sobald Autopilot das Modell mit der besten Leistung identifiziert hat, bietet er die Möglichkeit, das Modell automatisch bereitzustellen, indem die Modellartefakte generiert werden und der Endpunkt eine API bereitstellt. Externe Anwendungen können Daten an den Endpunkt senden und die entsprechenden Vorhersagen oder Schlussfolgerungen empfangen.

Autopilot unterstützt die Erstellung von Modellen für maschinelles Lernen auf großen Datensätzen von bis zu Hunderten von. GBs

Das folgende Diagramm skizziert die Aufgaben dieses AutoML-Prozesses, der von Autopilot verwaltet wird.

Überblick über den Amazon SageMaker Autopilot AutoML-Prozess.

Je nachdem, wie gut Sie sich mit dem maschinellen Lernprozess und Ihrer Programmiererfahrung auskennen, können Sie Autopilot auf unterschiedliche Weise verwenden:

Mithilfe der Studio Classic-Benutzeroberfläche können Benutzer zwischen einer Erfahrung ohne Code oder einem gewissen Maß an menschlichem Eingaben wählen.

Anmerkung
Nur Experimente, die aus Tabellendaten für Problemtypen wie Regression oder Klassifizierung erstellt wurden, sind über die Studio Classic-Benutzeroberfläche verfügbar.
Mithilfe der AutoML-API können Benutzer mit Programmiererfahrung Available verwenden, um AutoML-Jobs SDKs zu erstellen. Dieser Ansatz bietet mehr Flexibilität und Anpassungsmöglichkeiten und ist für alle Problemtypen verfügbar.

Autopilot unterstützt derzeit die folgenden Problemtypen:

Anmerkung

Bei Regressions- oder Klassifizierungsproblemen mit Tabellendaten können Benutzer zwischen zwei Optionen wählen: mithilfe der Studio Classic-Benutzeroberfläche oder der API-Referenz.

Aufgaben wie Text- und Bildklassifizierung, Zeitreihenprognosen und Feinabstimmung großer Sprachmodelle sind ausschließlich über die Version 2 der AutoML-REST-API verfügbar. Wenn Ihre bevorzugte Sprache Python ist, können Sie direkt auf AWS SDK für Python (Boto3)das MLV2 Auto-Objekt des Amazon SageMaker Python SDK verweisen.

Benutzer, die den Komfort einer Benutzeroberfläche bevorzugen, können Amazon SageMaker Canvas verwenden, um auf vortrainierte Modelle und generative KI-Grundmodelle zuzugreifen oder benutzerdefinierte Modelle zu erstellen, die auf bestimmte Text-, Bildklassifizierungs-, Prognoseanforderungen oder generative KI zugeschnitten sind.

Regressions-, Binär- und Mehrklassenklassifizierung mit tabellarischen Daten, die als CSV- oder Parquet-Dateien formatiert sind, wobei jede Spalte ein Feature mit einem bestimmten Datentyp und jede Zeile eine Beobachtung enthält. Zu den akzeptierten Spaltendatentypen gehören numerische, kategoriale, Text- und Zeitreihen, die aus Zeichenfolgen mit durch Kommas getrennten Zahlen bestehen.
- Informationen zum Erstellen eines Autopilot-Jobs als Pilotversuch mithilfe der SageMaker API-Referenz finden Sie unter. Erstellen Sie Regressions- oder Klassifizierungsjobs für Tabellendaten mithilfe der AutoML-API
- Informationen zum Erstellen eines Autopilot-Jobs als Pilotversuch mithilfe der Studio Classic-Benutzeroberfläche finden Sie unter. Erstellen Sie mit der Studio Classic-Benutzeroberfläche ein Regressions- oder Klassifikations-Autopilot-Experiment für Tabellendaten
- Wenn Sie als Administrator die standardmäßigen Infrastruktur-, Netzwerk- oder Sicherheitsparameter von Autopilot-Experimenten in der klassischen Benutzeroberfläche von Studio Classic vorkonfigurieren möchten, finden Sie weitere Informationen unter. Konfigurieren Sie die Standardparameter eines Autopilot-Experiments (für Administratoren)
Textklassifizierung mit Daten, die als CSV- oder Parquet-Dateien formatiert sind, wobei eine Spalte die zu klassifizierenden Sätze enthält, während eine andere Spalte die entsprechende Klassenbezeichnung enthalten sollte. Siehe Erstellen Sie einen AutoML-Job für die Textklassifizierung mithilfe der API.
Bildklassifizierung mit Bildformaten wie PNG, JPEG oder einer Kombination aus beidem. Weitere Informationen finden Sie unter. Erstellen Sie einen Job zur Bildklassifizierung mithilfe der AutoML-API
Zeitreihenprognosen mit Zeitreihendaten, die als CSV- oder Parquet-Dateien formatiert sind. Siehe. Erstellen Sie mithilfe der API einen AutoML-Job für Zeitreihenprognosen
Feinabstimmung umfangreicher Sprachmodelle (LLMs) für die Textgenerierung mit Daten, die als CSV- oder Parquet-Dateien formatiert sind. Siehe. Erstellen Sie einen AutoML-Job zur Feinabstimmung von Textgenerierungsmodellen mithilfe der API

Darüber hinaus hilft Autopilot Benutzern zu verstehen, wie Modelle Vorhersagen treffen, indem es automatisch Berichte generiert, die die Bedeutung der einzelnen Funktionen aufzeigen. Dies bietet Transparenz und Einblicke in die Faktoren, die die Prognosen beeinflussen. Diese Erkenntnisse können von Risiko- und Compliance-Teams sowie externen Aufsichtsbehörden genutzt werden. Der Autopilot bietet auch einen Bericht zur Modellleistung, der eine Zusammenfassung der Bewertungskennzahlen, eine Konfusionsmatrix, verschiedene Visualisierungen wie Kennlinien für den Betrieb von Empfängern und Kurven für präzise Rückrufe und vieles mehr umfasst. Der spezifische Inhalt jedes Berichts hängt vom Problemtyp des Autopilot-Experiments ab.

Die Erklärbarkeits- und Leistungsberichte für den besten Modellkandidaten in einem Autopilot-Experiment sind für Problemtypen zur Klassifizierung von Text-, Bild- und Tabellendaten verfügbar.

Für Anwendungsfälle mit tabellarischen Daten wie Regression oder Klassifikation bietet Autopilot zusätzliche Einblicke in die Art und Weise, wie die Daten verarbeitet wurden und wie die Modellkandidaten ausgewählt, trainiert und optimiert wurden. Dazu werden Notizbücher generiert, die den Code enthalten, der zur Untersuchung der Daten und zur Suche nach dem Modell mit der besten Leistung verwendet wurde. Diese Notebooks bieten eine interaktive und explorative Umgebung, in der Sie mehr über die Auswirkungen verschiedener Eingaben oder die Kompromisse erfahren können, die bei den Experimenten eingegangen wurden. Sie können mit dem leistungsfähigeren Modellkandidaten weiter experimentieren, indem Sie Ihre eigenen Änderungen an den Notebooks zur Datenexploration und Kandidatendefinition vornehmen, die von Autopilot bereitgestellt werden.

Mit Amazon SageMaker AI zahlen Sie nur für das, was Sie tatsächlich nutzen. Sie zahlen für die zugrunde liegenden Rechen- und Speicherressourcen innerhalb von SageMaker KI oder anderen AWS Diensten, basierend auf Ihrer Nutzung. Weitere Informationen zu den Kosten der Nutzung von SageMaker KI finden Sie unter SageMakerAmazon-Preise.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Automatisiertes ML, No-Code oder Low-Code

Regressions- oder Klassifizierungsjobs mithilfe der AutoML-API erstellen