Verwenden von integrierten Amazon SageMaker Algorithmen - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von integrierten Amazon SageMaker Algorithmen

Amazon SageMaker provides a suite of built-in algorithms to help data scientists and machine learning practitioners get started on training and deploying machine learning models quickly. For someone that is new to SageMaker, choosing the right algorithm for your particular use case can be a challenging task. The following table provides a quick cheat sheet that shows how you can start with an example problem or use case and find an appropriate built-in algorithm offered by SageMaker that is valid for that problem type. Additional guidance organized by learning paradigms (supervised and unsupervised) and important data domains (text and images) is provided in the sections following the table.

Table: Mapping use cases to built-in algorithms
Example problems and use cases Learning paradigm or domain Problem types Data input format Built-in algorithms

Predict if an item belongs to a category: an email spam filter

Betreutes Lernen

Binary/multi-class classification

Tabular

Factorization Machines-Algorithmus, K-nearest neighbors (k-NN)-Algorithmus, Algorithmus für lineares Lernen, XGBoost-Algorithmus

Predict a numeric/continuous value: estimate the value of a house

Regression

Tabular

Factorization Machines-Algorithmus, K-nearest neighbors (k-NN)-Algorithmus, Algorithmus für lineares Lernen, XGBoost-Algorithmus

Based on historical data for a behavior, predict future behavior: predict sales on a new product based on previous sales data.

Time-series forecasting

Tabular

DeepAR-Prognosenalgorithmus

Improve the data embeddings of the high-dimensional objects: identify duplicate support tickets or find the correct routing based on similarity of text in the tickets

Embeddings: convert high-dimensional objects into low-dimensional space. Tabular Object2Vec-Algorithmus

Drop those columns from a dataset that have a weak relation with the label/target variable: the color of a car when predicting its mileage.

Unüberwachtes Lernen

Feature engineering: dimensionality reduction

Tabular

Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA)

Detect abnormal behavior in application: spot when an IoT sensor is sending abnormal readings

Anomalieerkennung

Tabular

Random Cut Forest (RCF)-Algorithmus

Protect your application from suspicious users: detect if an IP address accessing a service might be from a bad actor

IP anomaly detection

Tabular

IP Insights

Group similar objects/data together: find high-, medium-, and low-spending customers from their transaction histories

Clustering oder Gruppierung

Tabellarische

k-Means-Algorithmus

Organisieren Sie eine Reihe von Dokumenten in Themen (im Voraus nicht bekannt): Kennzeichnen Sie ein Dokument basierend auf den im Dokument verwendeten Begriffen als zu einer medizinischen Kategorie gehört.

Modeling von Themen

Text

Latent Dirichlet Allocation (LDA)-Algorithmus, Algorithmus für neuronale Themenmodellierung (NTM)

Weisen Sie Dokumenten in einem Korpus vordefinierte Kategorien zu: Kategorisieren Sie Bücher in einer Bibliothek in akademische Disziplinen

Textanalyse

Textklassifizierung

Text

BlazingText-Algorithmus

Konvertiert Text von einer Sprache in eine andere: Spanisch in Englisch

Maschinelle Übersetzung

Algorithmus
Text

Sequence-to-Sequence-Algorithmus

Fassen Sie ein langes Textkorpus zusammen: eine Zusammenfassung für ein Forschungspapier

Zusammenfassung des Textes

Text

Sequence-to-Sequence-Algorithmus

Konvertieren von Audiodateien in Text: Transkribieren Sie Callcenter-Konversationen zur weiteren Analyse

Sprache zu Text

Text

Sequence-to-Sequence-Algorithmus

Beschriften/Kennzeichnen Sie ein Bild basierend auf dem Inhalt des Bildes: Warnungen über Inhalte für Erwachsene in einem Bild

Verarbeiten von Bildern

Bild- und Multi-Label Klassifizierung

Image

Bildklassifikationsalgorithmus

Erkennen Sie Personen und Objekte in einem Bild: Die Polizei überprüft eine große Fotogalerie für eine vermisste Person

Objekterkennung und Klassifizierung

Image

Objekterkennungsalgorithmus

Markieren Sie jedes Pixel eines Bildes einzeln mit einer Kategorie: Selbstfahrende Autos bereiten sich darauf vor, Objekte auf ihre Weise zu identifizieren

Computervision

Image

Semantischer Segmentierungsalgorithm

Wichtige Informationen zu Docker-Registrierungspfaden, Datenformaten, neu gestarteten Amazon EC2 EC2-Instance-Typen und CloudWatch-Protokollen, die allen von SageMaker bereitgestellten integrierten Algorithmen gemeinsam sind, finden Sie unterAllgemeine Informationen über integrierte Algorithmenaus.

Die folgenden Abschnitte enthalten zusätzliche Anleitungen für die integrierten Amazon SageMaker SageMaker-Algorithmen, die nach den überwachten und unbeaufsichtigten Lernparadigmen gruppiert sind, zu denen sie gehören. Beschreibungen dieser Lernparadigmen und ihrer zugehörigen Problemtypen finden Sie unterAuswählen eines Algorithmusaus. Es werden auch Abschnitte für die integrierten SageMaker-Algorithmen bereitgestellt, um zwei wichtige Domänen für maschinelles Lernen zu behandeln: Textanalyse und Bildverarbeitung.

Betreutes Lernen

Amazon SageMaker bietet mehrere integrierte Allzweck-Algorithmen, die entweder für Klassifizierungs- oder Regressionsprobleme verwendet werden können.

  • Algorithmus für lineares Lernen—lernt eine lineare Funktion für die Regression oder eine lineare Schwellenwertfunktion für die Klassifizierung.

  • Factorization Machines-Algorithmus—Eine Erweiterung eines linearen Modells, das Interaktionen zwischen Funktionen innerhalb von hochdimensionalen Datasets mit geringer Dichte wirtschaftlich erfassen soll.

  • XGBoost-Algorithmus—Implementierung des gradientverstärkten Baum-Algorithmus, der ein Ensemble von Schätzungen aus einer Reihe einfacherer und schwächerer Modelle kombiniert.

  • K-nearest neighbors (k-NN)-Algorithmus— eine nichtparametrische Methode, bei der die k nächstgelegenen markierten Punkte verwendet wird, um einem neuen Datenpunkt eine Beschriftung zur Klassifizierung oder einem prognostizierten Zielwert aus dem Durchschnitt der k nächstgelegenen Punkte für die Regression zuzuweisen.

Amazon SageMaker bietet auch mehrere integrierte überwachte Lernalgorithmen, die für speziellere Aufgaben während des Feature-Engineering und der Prognose aus Zeitreihendaten verwendet werden.

  • Object2Vec-Algorithmus— ein neuer hochgradig anpassbarer Mehrzweckalgorithmus, der für Feature Engineering verwendet wird. Er kann dichte Einbettungen mit geringer Dimensionalität hochdimensionaler Objekte lernen, um Funktionen zu erstellen, die die Trainingseffizienz für nachgelagerte Modelle verbessern. Während dies ein überwachter Algorithmus ist, da er beschriftete Daten für das Training erfordert, gibt es viele Szenarien, in denen die Beziehungsbeschriftungen ausschließlich aus natürlichen Clusterings in Daten ohne explizite menschliche Anmerkungen gewonnen werden können.

  • DeepAR-Prognosenalgorithmus—Ein überwachter Lernalgorithmus zur Prognose von skalaren (eindimensionalen) Zeitreihen mithilfe von rekurrenten (rückgekoppelten) neuronalen Netzwerken (RNN).

Unüberwachtes Lernen

Amazon SageMaker bietet mehrere integrierte Algorithmen, die für eine Vielzahl von unbeaufsichtigten Lernaufgaben wie Clustering, Dimensionsreduktion, Mustererkennung und Anomalieerkennung verwendet werden können.

  • Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA)— reduziert die Dimensionalität (Anzahl der Funktionen) innerhalb eines Datasets, indem Datenpunkte auf die ersten Hauptkomponenten projiziert werden. Ziel ist es, so viele Informationen oder Variationen wie möglich beizubehalten. Für Mathematiker sind Hauptkomponenten Eigenvektoren der Kovarianzmatrix der Daten.

  • k-Means-Algorithmus—sucht diskrete Gruppierungen innerhalb von Daten, wobei Mitglieder einer Gruppe sich so ähnlich wie möglich sein sollen und sich so stark wie möglich von Mitgliedern anderer Gruppen unterscheiden sollen.

  • IP Insights—lernt die Nutzungsmuster für IPv4-Adressen. Er wurde entwickelt, um Zuordnungen zwischen IPv4-Adressen und verschiedenen Entitys, wie beispielsweise Benutzer-IDs oder Kontonummern, zu erfassen.

  • Random Cut Forest (RCF)-Algorithmus—erkennt anormale Datenpunkte in einem Dataset, die von ansonsten gut strukturierten oder nach Mustern geordneten Daten abweichen.

Textanalyse

SageMaker bietet Algorithmen, die auf die Analyse von Textdokumenten zugeschnitten sind, die in der Verarbeitung natürlicher Sprache, zur Klassifizierung oder Zusammenfassung von Dokumenten, der Themenmodellierung oder -klassifizierung sowie der Sprachtranskription oder -übersetzung verwendet werden.

  • BlazingText-Algorithmus—Eine hochgradig optimierte Implementierung der Word2vec-Textklassifizierungsalgorithmen, die auf große Datasets skaliert werden. Es ist für viele nachgeschaltete Natural Language Processing (NLP) -Aufgaben nützlich.

  • Sequence-to-Sequence-Algorithmus—Ein überwachter Algorithmus, der für neuronale maschinelle Übersetzung verwendet wird.

  • Latent Dirichlet Allocation (LDA)-Algorithmus—ein Algorithmus, der zur Bestimmung von Themen in einer Reihe von Dokumenten geeignet ist. Er ist ein unüberwachter Algorithmus, was bedeutet, dass während der Schulung keine Beispieldaten mit Antworten verwendet werden.

  • Algorithmus für neuronale Themenmodellierung (NTM)—Eine weitere unüberwachte Methode zur Bestimmung von Themen in einer Reihe von Dokumente mithilfe eines neuronalen Netzwerkansatzes.

Verarbeiten von Bildern

SageMaker bietet auch Bildverarbeitungsalgorithmen, die für die Bildklassifizierung, Objekterkennung und Computervision verwendet werden.

  • Bildklassifikationsalgorithmus—verwendet Beispieldaten mit Antworten (bezeichnet alsüberwachter Algorithmus) enthalten.   Verwenden Sie diesen Algorithmus zur Klassifikation von Bildern.

  • Semantischer Segmentierungsalgorithm— bietet einen fein abgestimmten Ansatz auf Pixelebene für die Entwicklung von Computer Vision-Anwendungen.

  • Objekterkennungsalgorithmus— erkennt und klassifiziert Objekte in Bildern mit einem einzelnen tiefen neuronalen Netzwerk. Es handelt sich um einen überwachten Lernalgorithmus, der Bilder als Eingabe akzeptiert und alle Instances von Objekten innerhalb der Bilderszene identifiziert.