Use Amazon SageMaker Built-in Algorithms - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Use Amazon SageMaker Built-in Algorithms

Amazon SageMaker provides a suite of built-in algorithms to help data scientists and machine learning practitioners get started on training and deploying machine learning models quickly. For someone that is new to SageMaker, choosing the right algorithm for your particular use case can be a challenging task. The following table provides a quick cheat sheet that shows how you can start with an example problem or use case and find an appropriate built-in algorithm offered by SageMaker that is valid for that problem type. Additional guidance organized by learning paradigms (supervised and unsupervised) and important data domains (text and images) is provided in the sections following the table.

Table: Mapping use cases to built-in algorithms
Example problems and use cases Learning paradigm or domain Problemtypen Data input format Built-in algorithms

Predict if an item belongs to a category: an email spam filter

Schulung, betreut

Binary/multi-class classification

Tabular

Factorization Machines-Algorithmus, K-nearest neighbors (k-NN)-Algorithmus, Algorithmus für lineares Lernen, XGBoost-Algorithmus

Predict a numeric/continuous value: estimate the value of a house

Regression

Tabular

Factorization Machines-Algorithmus, K-nearest neighbors (k-NN)-Algorithmus, Algorithmus für lineares Lernen, XGBoost-Algorithmus

Based on historical data for a behavior, predict future behavior: predict sales on a new product based on previous sales data.

Time-series forecasting

Tabular

DeepAR-Prognosenalgorithmus

Drop those columns from a dataset that have a weak relation with the label/target variable: the color of a car when predicting its mileage.

Unüberwachtes Lernen

Feature engineering: dimensionality reduction

Tabular

Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA)

Detect abnormal behavior in application: spot when an IoT sensor is sending abnormal readings

Anomalieerkennung

Tabular

Random Cut Forest (RCF)-Algorithmus

Protect your application from suspicious users: detect if an IP address accessing a service might be from a bad actor

IP anomaly detection

Tabular

IP Insights

Improve the data embeddings of the high-dimensional objects: identify duplicate support tickets or find the correct routing based on similarity of text in the tickets

Embeddings: convert high-dimensional objects into low-dimensional space.

Tabular

Object2Vec-Algorithmus

Group similar objects/data together: find high-, medium-, and low-spending customers from their transaction histories

Clustering oder Gruppierung

Tabellarische

k-Means-Algorithmus

Organisieren Sie eine Reihe von Dokumenten in Themen (im Voraus nicht bekannt): Markieren Sie ein Dokument als Teil einer medizinischen Kategorie basierend auf den im Dokument verwendeten Begriffen.

Modeling von Themen

Text

Latent Dirichlet Allocation (LDA)-Algorithmus, Algorithmus für neuronale Themenmodellierung (NTM)

Zuweisen vordefinierter Kategorien zu Dokumenten in einem Korpus: Kategorisieren von Büchern in einer Bibliothek in akademische Disziplinen

Textuelle Analyse

Textklassifizierung

Text

BlazingText-Algorithmus

Konvertieren von Text von einer Sprache in eine andere: Spanisch zu Englisch

Maschinelle Übersetzung

-Algorithmus
Text

Sequence-to-Sequence-Algorithmus

Fassen Sie einen langen Textkorpus zusammen: ein Abstract für ein Forschungspapier

Zusammenfassung des Textes

Text

Sequence-to-Sequence-Algorithmus

Konvertieren von Audiodateien in Text: Transkribieren von Callcenter-Gesprächen für weitere Analysen

Sprache in Text-toFlow

Text

Sequence-to-Sequence-Algorithmus

Beschriftung/Markieren eines Bildes basierend auf dem Inhalt des Bildes: Warnungen über Inhalte für Erwachsene in einem Bild

Verarbeiten von Bildern

Bild- und Multi-Label-Klassifizierung

Abbild

Bildklassifikationsalgorithmus

Menschen und Objekte in einem Bild erkennen: Polizei überprüft eine große Fotogalerie für eine vermisste Person

Objekterkennung und -klassifizierung

Abbild

Objekterkennungsalgorithmus

Taggen Sie jedes Pixel eines Bildes einzeln mit einer Kategorie: selbstfahrende Autos bereiten sich darauf vor, Objekte in ihrem Weg zu identifizieren

Computervision

Abbild

Semantischer Segmentierungsalgorithm

Wichtige Informationen zu Docker-Registrierungspfaden, Datenformaten, neu empfangenen Amazon EC2 Instance-Typen und CloudWatch Protokollen, die für alle integrierten Algorithmen von SageMaker gelten, finden Sie unterHäufige Informationen zu integrierten Algorithmenaus.

Die folgenden Abschnitte enthalten zusätzliche Anleitungen für die integrierten Amazon SageMaker Algorithmen, gruppiert nach den überwachten und unbeaufsichtigten Lernparadigmen, zu denen sie gehören. Beschreibungen dieser Lernparadigmen und der zugehörigen Problemtypen finden Sie unterAuswählen eines Algorithmusaus. Abschnitte werden auch für die integrierten SageMaker Algorithmen zur Verfügung gestellt, die zwei wichtige Bereiche des maschinellen Lernens adressieren: Textanalyse und Bildverarbeitung.

Schulung, betreut

Amazon SageMaker bietet mehrere integrierte allgemeine Algorithmen, die für Klassifizierungs- oder Regressionsprobleme verwendet werden können.

  • Algorithmus für lineares Lernen— lernt eine lineare Funktion für die Regression oder eine lineare Schwellenwertfunktion für die Klassifizierung.

  • Factorization Machines-Algorithmus— eine Erweiterung eines linearen Modells, das darauf ausgelegt ist, Interaktionen zwischen Funktionen innerhalb von hochdimensionalen Datasets mit geringer Dichte wirtschaftlich zu erfassen.

  • XGBoost-Algorithmus—Implementierung des gradientgesteigerten Baumalgorithmus, der ein Ensemble von Schätzungen aus einer Menge einfacherer und schwächerer Modelle kombiniert.

  • K-nearest neighbors (k-NN)-Algorithmus— eine nicht-parametrische Methode, bei der die am nächsten markierten Punkte k verwendet werden, um einem neuen Datenpunkt eine Beschriftung zuzuweisen oder einen prognostizierten Zielwert aus dem Durchschnitt der k nächsten Punkte für die Regression zuzuweisen.

Amazon SageMaker bietet auch mehrere integrierte überwachte Lernalgorithmen, die für speziellere Aufgaben beim Feature-Engineering und Prognosen aus Zeitreihendaten verwendet werden.

  • Object2Vec-Algorithmus— ein neuer, hoch anpassbarer Mehrzweckalgorithmus, der für das Feature-Engineering verwendet wird. Er kann dichte Einbettungen mit geringer Dimensionalität hochdimensionaler Objekte lernen, um Funktionen zu erstellen, die die Trainingseffizienz für nachgeschaltete Modelle verbessern. Obwohl dies ein überwachter Algorithmus ist, da er beschriftete Daten für das Training erfordert, gibt es viele Szenarien, in denen die Beziehungsbeschriftungen ausschließlich aus natürlichen Clusterings in Daten abgerufen werden können, ohne explizite menschliche Annotation.

  • DeepAR-Prognosenalgorithmus— ein überwachter Lernalgorithmus zur Prognose von skalaren (eindimensionalen) Zeitreihen mithilfe von rekurrenten (rückgekoppelten) neuronalen Netzwerken (RNN).

Unüberwachtes Lernen

Amazon SageMaker bietet mehrere integrierte Algorithmen, die für eine Vielzahl von unbeaufsichtigten Lernaufgaben wie Clustering, Dimensionsreduktion, Mustererkennung und Anomalieerkennung verwendet werden können.

  • Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA)— reduziert die Dimensionalität (Anzahl der Features) in einem Dataset, indem Datenpunkte auf die ersten Hauptkomponenten projiziert werden. Ziel ist es, so viele Informationen oder Variationen wie möglich beizubehalten. Für Mathematiker sind Hauptkomponenten Eigenvektoren der Kovarianzmatrix der Daten.

  • k-Means-Algorithmus— sucht diskrete Gruppierungen innerhalb von Daten, wobei Mitglieder einer Gruppe sich so ähnlich wie möglich sein sollen und sich so stark wie möglich von Mitgliedern anderer Gruppen unterscheiden sollen.

  • IP Insights— lernt die Nutzungsmuster für IPv4-Adressen. Er wurde entwickelt, um Zuordnungen zwischen IPv4-Adressen und verschiedenen Entitys, wie beispielsweise Benutzer-IDs oder Kontonummern, zu erfassen.

  • Random Cut Forest (RCF)-Algorithmus— erkennt anormale Datenpunkte in einem Dataset, die von ansonsten gut strukturierten oder nach Mustern geordneten Daten abweichen.

Textuelle Analyse

SageMaker bietet Algorithmen, die auf die Analyse von Textdokumenten zugeschnitten sind, die in der Verarbeitung natürlicher Sprache, Dokumentklassifizierung oder Zusammenfassung, Themenmodellierung oder Klassifikation sowie Sprachtranskription oder Übersetzung verwendet werden.

  • BlazingText-Algorithmus— eine hochgradig optimierte Implementierung der Word2vec-Textklassifizierungsalgorithmen, die leicht auf große Datasets skalieren. Es ist nützlich für viele Downstream-Aufgaben (Natural Language Processing, NLP).

  • Sequence-to-Sequence-Algorithmus— ein überwachter Algorithmus, der allgemein für neuronale maschinelle Übersetzung verwendet wird.

  • Latent Dirichlet Allocation (LDA)-Algorithmus— ein Algorithmus, der für das Bestimmen von Themen in einer Reihe von Dokumenten geeignet ist. Er ist ein unüberwachter Algorithmus, was bedeutet, dass während der Schulung keine Beispieldaten mit Antworten verwendet werden.

  • Algorithmus für neuronale Themenmodellierung (NTM)Eine weitere unüberwachte Methode zur Bestimmung von Themen in einer Reihe von Dokumente mithilfe eines neuronalen Netzwerkansatzes.

Verarbeiten von Bildern

SageMaker bietet auch Bildverarbeitungsalgorithmen, die für die Bildklassifizierung, Objekterkennung und Computervision verwendet werden.

  • Bildklassifikationsalgorithmus— verwendet Beispieldaten mit Antworten (bezeichnet alsüberwachter Algorithmus) enthalten.   Verwenden Sie diesen Algorithmus zur Klassifikation von Bildern.

  • Semantischer Segmentierungsalgorithm— bietet einen fein abgestimmten Ansatz auf Pixelebene für die Entwicklung von Computer Vision-Anwendungen.

  • Objekterkennungsalgorithmus— erkennt und klassifiziert Objekte in Bildern mit einem einzelnen tiefen neuronalen Netzwerk. Es handelt sich um einen überwachten Lernalgorithmus, der Bilder als Eingabe akzeptiert und alle Instances von Objekten innerhalb der Bilderszene identifiziert.