Verwenden von Amazon SageMaker Integrierte Algorithmen oder vorab trainierte Modelle - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von Amazon SageMaker Integrierte Algorithmen oder vorab trainierte Modelle

Amazon SageMaker bietet eine Reihe integrierter Algorithmen, vorab trainierter Modelle und vorgefertigter Lösungsvorlagen, damit Datenwissenschaftler und Praktiker des maschinellen Lernens schnell mit dem Training und der Bereitstellung von Modellen für maschinelles Lernen beginnen können. Für jemanden, der neu ist SageMakerkann die Auswahl des richtigen Algorithmus für Ihren speziellen Anwendungsfall eine herausfordernde Aufgabe sein. Die folgende Tabelle enthält einen kurzen Spickzettel, der zeigt, wie Sie mit einem Beispielproblem oder Anwendungsfall beginnen und einen geeigneten integrierten Algorithmus finden können, der von SageMaker das ist für diesen Problemtyp gültig. Zusätzliche Anleitungen, die nach Lernparadigmen (beaufsichtigt und unbeaufsichtigt) und wichtigen Datenbereichen (Text und Bilder) organisiert sind, finden Sie in den Abschnitten nach der Tabelle.

Table (Tabelle): Zuordnen von Anwendungsfällen zu integrierten Algorithmen
Beispielprobleme und Anwendungsfälle Lernparadigma oder Domäne Problemtypen Dateneingabeformat Integrierte Algorithmen

Hier einige Beispiele der 15 Problemtypen, die durch die vorab trainierten Modelle und vorgefertigten Lösungsvorlagen von behoben werden können SageMaker JumpStart:

Beantwortung von Fragen: Chatbot, der eine Antwort auf eine bestimmte Frage ausgibt.

Textanalyse: Analysieren Sie Texte aus branchenspezifischen Modellen wie dem Finanzwesen.

Vorab trainierte Modelle und vorgefertigte Lösungsvorlagen

Bildklassifizierung

Tabellarische Klassifizierung

Tabellarische Regression

Textklassifizierung

Objekterkennung

Einbetten von Text

Beantwortung von Fragen

Satzpaarklassifizierung

Einbetten von Abbild

Named Entity Recognition

Instance-Segmentierung

Generierung von Text

Zusammenfassung des Textes

Semantische Segmentierung

Maschinenübersetzung

Bild, Text, Tabellarisch

Beliebte Modelle, darunter Mobilenet, YOLO, Faster R-CNN, BERT, LightGBM und CatBoost

Eine Liste der verfügbaren vorab trainierten Modelle finden Sie unterJumpStart Modelleaus.

Eine Liste der verfügbaren vorgefertigten Lösungsvorlagen finden Sie unterJumpStart Lösungenaus.

Vorhersagen, ob ein Artikel zu einer Kategorie gehört: einem E-Mail-Spamfilter

Betreutes Lernen

Binäre/Mehrklas-Klassifizierung

Tabellarische Berichte

AutoGluon-T, CatBoost, Factorization Machines-Algorithmus, K-nearest neighbors (k-NN)-Algorithmus, Leicht GBM, Algorithmus für lineares Lernen, TabTransformer, XGBoost-Algorithmus

Einen numerischen/kontinuierlichen Wert vorhersagen: Schätzen Sie den Wert eines Hauses

Regression

Tabellarische Berichte

AutoGluon-T, CatBoost, Factorization Machines-Algorithmus, K-nearest neighbors (k-NN)-Algorithmus, Leicht GBM, Algorithmus für lineares Lernen, TabTransformer, XGBoost-Algorithmus

Prognostizieren Sie auf der Grundlage historischer Daten für ein Verhalten future Verhalten: Prognostizieren Sie Verkäufe für ein neues Produkt basierend auf früheren Verkaufsdaten.

Zeitreihenprognosen

Tabellarische Berichte

DeepAR-Prognosenalgorithmus

Verbessern Sie die Dateneinbettung der hochdimensionalen Objekte: Identifizieren Sie doppelte Support-Tickets oder finden Sie das richtige Routing basierend auf der Ähnlichkeit des Textes in den Tickets

Einbettungen: wandelt hochdimensionale Objekte in niedrigdimensionalen Raum um. Tabellarische Berichte Object2Vec-Algorithmus

Löschen Sie die Spalten aus einem Datensatz, die eine schwache Beziehung zur Kennzeichnungs-/Zielvariablen haben: die Farbe eines Autos bei der Vorhersage seiner Laufleistung.

Unüberwachtes Lernen

Feature-Engineering: Reduzierung der Dimensionalität

Tabellarische Berichte

Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA)

Erkennen Sie abnormales Verhalten in der Anwendung: Erkennen, wenn ein IoT-Sensor abnormale Messwerte sendet

Anomalieerkennung

Tabellarische Berichte

Random Cut Forest (RCF)-Algorithmus

Schützen Sie Ihre Anwendung vor verdächtigen Benutzern: Ermitteln Sie, ob eine IP-Adresse, die auf einen Dienst zugreift, von einem schlechten Akteur stammt

IP-Anomalieerkennung

Tabellarische Berichte

IP Insights

Gruppieren Sie ähnliche Objekte/Daten: Finden Sie Kunden mit hohen, mittleren und niedrigen Ausgaben aus ihren Transaktionshistorien

Clustering oder Gruppierung

Tabellarische Berichte

k-Means-Algorithmus

Organisieren Sie eine Reihe von Dokumenten in Themen (nicht im Voraus bekannt): Kennzeichnen Sie ein Dokument anhand der im Dokument verwendeten Begriffe als zu einer medizinischen Kategorie gehörend.

Theming

Text

Latent Dirichlet Allocation (LDA)-Algorithmus, Algorithmus für neuronale Themenmodellierung (NTM)

Ordnen Sie Dokumenten in einem Korpus vordefinierte Kategorien zu: Kategorisieren Sie Bücher in einer Bibliothek in akademische Disziplinen

Textanalyse

Textklassifizierung

Text

BlazingText-Algorithmus

Konvertiert Text von einer Sprache in eine andere: Spanish (Englisch)

Maschinale Transl

Algorithmus
Text

Sequence-to-Sequence-Algorithmus

Fassen Sie einen Langtext-Korpus zusammen: eine Zusammenfassung für eine Forschungsarbeit

Zusammenfassung des Textes

Text

Sequence-to-Sequence-Algorithmus

Audiodateien in Text umwandeln: Callcenter-Konversationen zur weiteren Analyse transkribieren

Speech-to-text

Text

Sequence-to-Sequence-Algorithmus

Kennzeichnen/kennzeichnen Sie ein Bild basierend auf dem Inhalt des Bildes: Warnungen über nicht jugendfreie Inhalte in einem Bild

Verarbeiten von Bildern

Klassifizierung von Bildern und mehreren Labels

Image

Bildklassifikationsalgorithmus

Erkennen Sie Personen und Objekte in einem Bild: Die Polizei überprüft eine große Fotogalerie nach vermissten Personen

Objekterkennung und Klassifizierung

Image

Objekterkennungsalgorithmus

Kennzeichnen Sie jedes Pixel eines Bildes einzeln mit einer Kategorie: Selbstfahrende Autos bereiten sich darauf vor, Objekte zu identifizieren, die ihnen im Weg stehen

Computervision

Image

Semantischer Segmentierungsalgorithm

Wichtige Informationen zu Docker-Registrierungspfaden, Datenformaten, empfohlenen Amazon EC2 EC2-Instance-Typen und CloudWatch -Protokolle zu allen integrierten Algorithmen von SageMakerfinden Sie unterAllgemeine Informationen zu integrierten Algorithmenaus.

In den folgenden Abschnitten finden Sie zusätzliche Informationen für Amazon SageMaker eingebaute Algorithmen, gruppiert nach den Paradigmen des überwachten und unüberwachten Lernens, zu denen sie gehören. Eine Beschreibung dieser Lernparadigmen und der zugehörigen Problemtypen finden Sie unterAuswählen eines Algorithmusaus. Abschnitte sind auch für die SageMaker eingebaute Algorithmen, die für zwei wichtige Bereiche des maschinellen Lernens verfügbar sind: Textanalyse und Bildverarbeitung.

Vorab trainierte Modelle und Lösungsvorlagen

SageMaker JumpStart bietet eine große Auswahl an vorab trainierten Modellen, vorgefertigten Lösungsvorlagen und Beispielen für gängige Problemtypen, die den SageMaker SDK sowie Studio. Weitere Informationen zu diesen Modellen, Lösungen und den Beispiel-Notebooks von SageMaker JumpStartfinden Sie unterSageMaker JumpStartaus.

Betreutes Lernen

Amazon SageMaker bietet mehrere eingebaute Allzweckalgorithmen, die entweder für Klassifizierungs- oder Regressionsprobleme verwendet werden können.

  • AutoGluon-T— ein Open-Source-AutoML-Framework, das erfolgreich Modelle zusammenfügt und sie in mehreren Schichten stapelt.

  • CatBoost— eine Implementierung des Gradient-Boosted-Trees-Algorithmus, der geordnetes Boosting und einen innovativen Algorithmus zur Verarbeitung kategorischer Merkmale einführt.

  • Factorization Machines-Algorithmus— eine Erweiterung eines linearen Modells, das darauf ausgelegt ist, Interaktionen zwischen Funktionen innerhalb von hochdimensionalen Datasets mit geringer Dichte wirtschaftlich zu erfassen.

  • K-nearest neighbors (k-NN)-Algorithmus— eine nicht parametrische Methode, die die k nächstgelegenen beschrifteten Punkte verwendet, um einem neuen Datenpunkt zur Klassifizierung eine Beschriftung oder einen vorhergesagten Zielwert aus dem Durchschnitt der k nächstgelegenen Punkte für die Regression zuzuweisen.

  • Leicht GBM— eine Implementierung des Gradient-Boosted-Trees-Algorithmus, der zwei neuartige Techniken zur Verbesserung der Effizienz und Skalierbarkeit hinzufügt: Gradientenbasiertes einseitiges Sampling (GOSS) und Exclusive Feature Bundling (EFB).

  • Algorithmus für lineares Lernen— lernt eine lineare Funktion für die Regression oder eine lineare Schwellenwertfunktion für die Klassifizierung.

  • TabTransformer— eine neuartige, tiefe tabellarische Datenmodellierungsarchitektur, die auf self-attention-basedTransformatoren.

  • XGBoost-Algorithmus— eine Implementierung des Gradient Boosted Trees-Algorithmus, der ein Ensemble von Schätzungen aus einer Menge einfacherer und schwächerer Modelle kombiniert.

Amazon SageMaker bietet auch mehrere integrierte Algorithmen für überwachtes Lernen, die für speziellere Aufgaben beim Feature Engineering und bei Prognosen aus Zeitreihendaten verwendet werden.

  • Object2Vec-Algorithmus— ein neuer, hochgradig anpassbarer Mehrzweckalgorithmus für Feature-Engineering. Er kann dichte Einbettungen mit geringer Dimensionalität hochdimensionaler Objekte lernen, um Funktionen zu erstellen, die die Trainingseffizienz für nachgekoppelte Modelle verbessern. Während es sich um einen überwachten Algorithmus handelt, da er beschriftete Daten für das Training benötigt, gibt es viele Szenarien, in denen die Beziehungsbeschriftungen ausschließlich aus natürlichen Clusterings in Daten ohne explizite menschliche Anmerkung abgerufen werden können.

  • DeepAR-Prognosenalgorithmus— ein überwachter Lernalgorithmus zur Prognose von skalaren (eindimensionalen) Zeitreihen mithilfe von rekurrenten (rückgekoppelten) neuronalen Netzwerken (RNN

Unüberwachtes Lernen

Amazon SageMaker bietet mehrere integrierte Algorithmen, die für eine Vielzahl von unbeaufsichtigten Lernaufgaben wie Clustering, Dimensionsreduzierung, Mustererkennung und Erkennung von Anomalien verwendet werden können.

  • Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA)— reduziert die Dimensionalität (Anzahl der Merkmale) innerhalb eines Datensatzes, indem Datenpunkte auf die ersten Hauptkomponenten projiziert werden. Ziel ist es, so viele Informationen oder Variationen wie möglich beizubehalten. Für Mathematiker sind Hauptkomponenten Eigenvektoren der Kovarianzmatrix der Daten.

  • k-Means-Algorithmus— findet diskrete Gruppierungen innerhalb von Daten, wobei Mitglieder einer Gruppe sich so ähnlich wie möglich sein sollen und sich so stark wie möglich von Mitgliedern anderer Gruppen unterscheiden sollen.

  • IP Insights— lernt die Nutzungsmuster für IPv4-Adressen. Er wurde entwickelt, um Zuordnungen zwischen IPv4-Adressen und verschiedenen Entitys, wie beispielsweise Benutzer-IDs oder Kontonummern, zu erfassen.

  • Random Cut Forest (RCF)-Algorithmus— erkennt anormale Datenpunkte innerhalb eines Datensatzes, die von ansonsten gut strukturierten oder nach Mustern geordneten Daten abweichen.

Textanalyse

SageMaker bietet Algorithmen, die auf die Analyse von Textdokumenten zugeschnitten sind, die bei der Verarbeitung natürlicher Sprache, der Klassifizierung oder Zusammenfassung von Dokumenten, der Modellierung oder Klassifizierung von Themen sowie der Transkription oder Übersetzung von Sprachen verwendet werden.

  • BlazingText-Algorithmus— eine hochgradig optimierte Implementierung der Word2vec-Textklassifizierungsalgorithmen, die einfach auf große Datensätze skalieren können. Diese Funktion eignet sich für viele nachgekoppelte Aufgaben der natürlichen Sprachverarbeitung (Natural Language Processing

  • Sequence-to-Sequence-Algorithmus— ein überwachter Algorithmus, der allgemein für neuronale maschinelle Übersetzung verwendet wird.

  • Latent Dirichlet Allocation (LDA)-Algorithmus— ein Algorithmus, der zur Bestimmung von Themen in einer Reihe von Dokumenten geeignet ist. Er ist ein unüberwachter Algorithmus, was bedeutet, dass während der Schulung keine Beispieldaten mit Antworten verwendet werden.

  • Algorithmus für neuronale Themenmodellierung (NTM)— eine weitere unüberwachte Methode zur Bestimmung von Themen in einer Reihe von Dokumente mithilfe eines neuronalen Netzwerkansatzes.

Verarbeiten von Bildern

SageMaker stellt auch Bildverarbeitungsalgorithmen bereit, die für die Bildklassifizierung, Objekterkennung und Computer Vision verwendet werden.

  • Bildklassifikationsalgorithmus—verwendet Beispieldaten mit Antworten (bezeichnet alsüberwachter Algorithmus) enthalten.   Verwenden Sie diesen Algorithmus zur Klassifikation von Bildern.

  • Semantischer Segmentierungsalgorithm— bietet einen fein abgestimmten Ansatz auf Pixelebene für die Entwicklung von Computer Vision-Anwendungen.

  • Objekterkennungsalgorithmus—erkennt und klassifiziert Objekte in Bildern mithilfe eines einzelnen tiefen neuronalen Netzwerks. Es handelt sich um einen überwachten Lernalgorithmus, der Bilder als Eingabe akzeptiert und alle Instances von Objekten innerhalb der Bilderszene identifiziert.