Verwenden SageMaker von integrierten Amazon-Algorithmen oder vortrainierten Modellen - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden SageMaker von integrierten Amazon-Algorithmen oder vortrainierten Modellen

Amazon SageMaker bietet eine Suite von integrierten Algorithmen, vortrainierten Modellen und vorgefertigten Lösungsvorlagen, mit denen Datenwissenschaftler und Experten für Machine Learning schnell mit dem Training und der Bereitstellung von Machine-Learning-Modellen beginnen können. Für jemanden, der neu bei ist SageMaker, kann die Auswahl des richtigen Algorithmus für Ihren speziellen Anwendungsfall eine schwierige Aufgabe sein. Die folgende Tabelle enthält einen schnellen Spickbildschirm, der zeigt, wie Sie mit einem Beispielproblem oder Anwendungsfall beginnen und einen geeigneten integrierten Algorithmus finden können SageMaker , der von angeboten wird und für diesen Problemtyp gültig ist. Zusätzliche Anleitungen, die nach Lernparadigmen (beaufsichtigt und unbeaufsichtigt) und wichtigen Datendomains (Text und Bilder) geordnet sind, finden Sie in den Abschnitten nach der Tabelle.

Tabelle: Zuordnung von Anwendungsfällen zu integrierten Algorithmen
Beispiele für Probleme und Anwendungsfälle Lernparadigma oder -domäne -Problemtypen Dateneingabeformat Integrierte Algorithmen

Hier einige Beispiele für die 15 Problemtypen, die von den vortrainierten Modellen und vorgefertigten Lösungsvorlagen von behoben werden können SageMaker JumpStart:

Beantwortung von Fragen: Chatbot, der eine Antwort auf eine bestimmte Frage ausgibt.

Textanalyse: Analysieren Sie Texte aus Modellen, die für eine bestimmte Branche wie Finanzen spezifisch sind.

Vorab trainierte Modelle und vorgefertigte Lösungsvorlagen

Bildklassifizierung

Tabellarische Klassifizierung

Tabellarische Regression

Textklassifizierung

Objekterkennung

Einbettung von Text

Beantwortete Frage

Klassifizierung von Satzpaaren

Einbettung von Bildern

Named Entity Recognition

Instance-Segmentierung

Textgenerierung

Textzusammenfassung

Semantische Segmentierung

Maschinelle Übersetzung

Bild, Text, Tabellarisch

Beliebte Modelle, einschließlich Mobilenet, YOLO, Faster R-CNN, BERT, lightGBM und CatBoost

Eine Liste der verfügbaren vortrainierten Modelle finden Sie unter JumpStart Modelle.

Eine Liste der verfügbaren vorgefertigten Lösungsvorlagen finden Sie unter JumpStart Lösungen.

Sagen Sie voraus, ob ein Artikel zu einer Kategorie gehört: einem E-Mail-Spamfilter

(Überwachtes Lernen)

Binäre/Mehrklassen-Klassifizierung

Tabellarisch

AutoGluon-Tabellarisch, CatBoost, Faktorisierungsmaschinen Algorithmus, K-nearest neighbors (k-NN)-Algorithmus, LightGBM, Algorithmus für lineares Lernen, TabTransformer, XGBoost-Algorithmus

Einen numerischen/kontinuierlichen Wert vorhersagen: Schätzen Sie den Wert eines Hauses

Regression

Tabellarisch

AutoGluon-Tabellarisch, CatBoost, Faktorisierungsmaschinen Algorithmus, K-nearest neighbors (k-NN)-Algorithmus, LightGBM, Algorithmus für lineares Lernen, TabTransformer, XGBoost-Algorithmus

Prognostizieren Sie basierend auf historischen Daten für ein künftiges Verhalten: Prognostizieren Sie Verkäufe für ein neues Produkt auf der Grundlage früherer Verkaufsdaten.

Prognosen in Zeitreihen

Tabellarisch

DeepAR-Prognosenalgorithmus

Verbessern Sie die Dateneinbettung von Objekten mit hoher Dimensionalität: Identifizieren Sie doppelte Support-Tickets oder finden Sie anhand der Ähnlichkeit des Textes in den Tickets die richtige Weiterleitung

Einbettungen: Wandelt Objekte mit hoher Dimensionalität in Umgebung mit niedriger Dimensionalität um. Tabellarisch Object2Vec-Algorithmus

Löschen Sie die Spalten aus einem Datensatz, die eine schwache Beziehung zur Kennzeichnung/Zielvariablen haben: die Farbe eines Autos bei der Vorhersage seines Kilometerstands.

Unüberwachtes Lernen

Feature Engineering: Reduzierung der Dimensionalität

Tabellarisch

Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA)

Erkennen Sie abnormales Verhalten in der Anwendung: Stellen Sie fest, wenn ein IoT-Sensor abnormale Messwerte sendet

Anomalie-Erkennung

Tabellarisch

Random Cut Forest (RCF)-Algorithmus

Schützen Sie Ihre Anwendung vor verdächtigen Benutzern: Stellen Sie fest, ob eine IP-Adresse, die auf einen Dienst zugreift, möglicherweise von einem schlechten Akteur stammt

IP-Anomalie-Erkennung

Tabellarisch

IP Insights

Gruppierung ähnlicher Objekte/Daten: Finden Sie anhand ihrer Transaktionshistorie Kunden mit hohen, mittleren und niedrigen Ausgaben

Clustering oder Gruppierung

Tabellarisch

k-Means-Algorithmus

Organisieren Sie eine Reihe von Dokumenten nach Themen (die im Voraus nicht bekannt sind): Kennzeichnen Sie ein Dokument basierend auf der im Dokument verwendeten Begriffe als zu einer medizinischen Kategorie gehörig.

Themenmodellierung

Text

Latent Dirichlet Allocation (LDA)-Algorithmus, Algorithmus für neuronale Themenmodellierung (NTM)

Ordnen Sie Dokumenten in einem Korpus vordefinierte Kategorien zu: kategorisieren Sie Bücher in einer Bibliothek nach akademischen Disziplinen

Textuelle Analyse

Textklassifizierung

Text

BlazingText-Algorithmus, Textklassifizierung – TensorFlow

Text von einer Sprache in eine andere umwandeln: Spanisch > Englisch

Maschinelle Übersetzung

Algorithmus
Text

Sequence-to-Sequence-Algorithmus

Fassen Sie einen langen Textkorpus zusammen: ein Überblick über eine Forschungsarbeit

Textzusammenfassung

Text

Sequence-to-Sequence-Algorithmus

Audiodateien in Text umwandeln: Transkribieren Sie Callcenter-Konversationen zur weiteren Analyse

Speech-to-text

Text

Sequence-to-Sequence-Algorithmus

Kennzeichnen Sie ein Bild basierend auf dem Bildinhalt: Warnmeldungen zu Inhalten für Erwachsene in einem Bild

Verarbeiten von Bildern

Klassifizierung von Bildern und Multi-Labels

Image

Bildklassifikation - MXNet

Klassifizieren Sie mithilfe von Transfer Learning etwas in einem Bild.

Bildklassifizierung Image

Bildklassifizierung – TensorFlow

Erkennen Sie Personen und Objekte auf einem Bild: Die Polizei sucht in einer großen Bildergalerie nach einer vermissten Person

Erkennung und Klassifizierung von Objekten

Image

Objekterkennung – MXNet, Objekterkennung – TensorFlow

Kennzeichnen Sie jedes Pixel eines Bildes einzeln mit einer Kategorie: Selbstfahrende Autos bereiten sich darauf vor, Objekte zu identifizieren, die ihnen im Weg sind

Computer Vision

Image

Semantischer Segmentierungsalgorithm

Wichtige Informationen zu Docker-Registrierungspfaden, Datenformaten, empfohlenen Amazon EC2-Instance-Typen und CloudWatch Protokollen, die allen integrierten Algorithmen von gemeinsam sind SageMaker, finden Sie unter Allgemeine Informationen zu integrierten Algorithmen.

Die folgenden Abschnitte enthalten zusätzliche Anleitungen für die integrierten Amazon SageMaker -Algorithmen, gruppiert nach den überwachten und unbeaufsichtigten Lernparadigmen, zu denen sie gehören. Eine Beschreibung dieser Lernparadigmen und der damit verbundenen Problemtypen finden Sie unter Wählen Sie einen Algorithmus. Es werden auch Abschnitte für die integrierten SageMaker Algorithmen bereitgestellt, die für zwei wichtige Machine-Learning-Domains verfügbar sind: Textanalyse und Bildverarbeitung.

Vorab trainierte Modelle und Lösungsvorlagen

SageMaker JumpStart bietet eine Vielzahl von vortrainierten Modellen, vorgefertigten Lösungsvorlagen und Beispielen für gängige Problemtypen, die das SageMaker SDK sowie Studio Classic verwenden. Weitere Informationen zu diesen Modellen, Lösungen und den von bereitgestellten Beispielnotizbüchern SageMaker JumpStartfinden Sie unter SageMaker JumpStart.

(Überwachtes Lernen)

Amazon SageMaker bietet mehrere integrierte Allzweckalgorithmen, die entweder für Klassifizierungs- oder Regressionsprobleme verwendet werden können.

  • AutoGluon-Tabellarisch – Ein Open-Source-AutoML-Framework, das erfolgreich ist, indem es Modelle zusammenfügt und sie in mehreren Ebenen stapelt.

  • CatBoost – Eine Implementierung des Gradient-Boosted Trees-Algorithmus, der ein geordnetes Boosting und einen innovativen Algorithmus für die Verarbeitung kategorischer Features einführt.

  • Faktorisierungsmaschinen Algorithmus – Eine Erweiterung eines linearen Modells ist darauf ausgelegt, Interaktionen zwischen Funktionen innerhalb von hochdimensionalen Datasets mit geringer Dichte automatisch wirtschaftlich zu erfassen.

  • K-nearest neighbors (k-NN)-Algorithmus – Eine nicht-parametrische Methode, bei der die k nächstgelegenen beschrifteten Punkte verwendet werden, um einem neuen Datenpunkt zur Klassifizierung oder einem prognostizierten Zielwert aus dem Durchschnitt der k nächstgelegenen Punkte für die Regression eine Markierung zuzuweisen.

  • LightGBM – Eine Implementierung des Gradient-Boosted Trees-Algorithmus, der zwei neuartige Techniken zur Verbesserung der Effizienz und Skalierbarkeit hinzufügt: Gradient-Based One-Side Sampling (GOSS) und Exclusive Feature Bundling (EFB).

  • Algorithmus für lineares Lernen – lernt eine lineare Funktion für die Regression oder eine lineare Schwellenwertfunktion für die Klassifizierung.

  • TabTransformer– eine neue tiefgründige tabellarische Datenmodellierungsarchitektur, die auf self-attention-based Transformers basiert.

  • XGBoost-Algorithmus – Eine Implementierung des Gradient-Boosted Trees-Algorithmus, der eine Reihe von Schätzungen aus einer Reihe einfacherer und schwächerer Modelle kombiniert.

Amazon bietet SageMaker auch mehrere integrierte Algorithmen für überwachtes Lernen, die für spezialisiertere Aufgaben während des Feature-Engineerings und der Prognose anhand von Zeitreihendaten verwendet werden.

  • Object2Vec-Algorithmus – Ein neuer, hochgradig anpassbarer Mehrzweckalgorithmus, der für das Feature Engineering verwendet wird. Er kann dichte Einbettungen mit niedriger Dimensionalität von Objekten mit hoher Dimensionalität erlernen und so Merkmale erzeugen, die die Schulungseffizienz für nachgeschaltete Modelle verbessern. Dabei handelt es sich zwar um einen überwachten Algorithmus, da für die Schulung markierte Daten erforderlich sind. Es gibt jedoch viele Szenarien, in denen die Beziehungsbezeichnungen ausschließlich aus natürlichen Clustern in Daten gewonnen werden können, ohne dass eine explizite menschliche Anmerkung erforderlich ist.

  • DeepAR-Prognosenalgorithmus – Ein Algorithmus für überwachtes Lernen zur Prognose von skalaren (eindimensionalen) Zeitreihen mithilfe von wiederkehrenden neuronalen Netzwerken (RNN).

Unüberwachtes Lernen

Amazon SageMaker bietet mehrere integrierte Algorithmen, die für eine Vielzahl von Aufgaben des unüberwachten Lernens wie Clustering, Dimensionsreduzierung, Mustererkennung und Anomalieerkennung verwendet werden können.

  • Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA) – reduziert die Dimensionalität (Anzahl von Merkmalen) innerhalb eines Datensatzes, indem Datenpunkte auf die ersten Hauptkomponenten projiziert werden. Ziel ist es, so viele Informationen oder Variationen wie möglich beizubehalten. Für Mathematiker sind die Hauptkomponenten Eigenvektoren der Kovarianzmatrix der Daten.

  • k-Means-Algorithmus – findet diskrete Gruppierungen innerhalb von Daten, wobei Mitglieder einer Gruppe sich so ähnlich wie möglich sein sollen und sich so stark wie möglich von Mitgliedern anderer Gruppen unterscheiden sollen.

  • IP Insights – lernt die Nutzungsmuster für IPv4-Adressen kennen. Er wurde entwickelt, um Zuordnungen zwischen IPv4-Adressen und verschiedenen Entitys, wie beispielsweise Benutzer-IDs oder Kontonummern, zu erfassen.

  • Random Cut Forest (RCF)-Algorithmus – erkennt anomale Datenpunkte innerhalb eines Datensatzes, die von ansonsten gut strukturierten oder gemusterten Daten abweichen.

Textuelle Analyse

SageMaker bietet Algorithmen, die auf die Analyse von Textdokumenten zugeschnitten sind, die bei der Verarbeitung natürlicher Sprache, der Klassifizierung oder Zusammenfassung von Dokumenten, der Themenmodellierung oder -klassifizierung sowie der Sprachtranskription oder -übersetzung verwendet werden.

  • BlazingText-Algorithmus – Eine hochoptimierte Implementierung von Word2VEC und Textklassifizierungsalgorithmen, die sich problemlos auf große Datensätze skalieren lässt. Sie ist nützlich für viele nachgelagerte Aufgaben der natürlichen Sprachverarbeitung (NLP).

  • Sequence-to-Sequence-Algorithmus – Ein überwachter Algorithmus wird allgemein für neuronale maschinelle Übersetzung verwendet.

  • Latent Dirichlet Allocation (LDA)-Algorithmus – Ein Algorithmus eignet sich für die Bestimmung von Themen in einer Reihe von Dokumenten. Er ist ein unüberwachter Algorithmus, was bedeutet, dass während der Schulung keine Beispieldaten mit Antworten verwendet werden.

  • Algorithmus für neuronale Themenmodellierung (NTM) – Eine weitere unüberwachte Technik zur Bestimmung von Themen in einer Reihe von Dokumenten mithilfe eines neuronalen Netzwerkansatzes.

  • Textklassifizierung – TensorFlow – Ein überwachter Algorithmus, der Transfer Learning mit verfügbaren vorab trainierten Modellen für die Textklassifizierung unterstützt.

Verarbeiten von Bildern

SageMaker bietet auch Bildverarbeitungsalgorithmen, die für Bildklassifizierung, Objekterkennung und Computer Vision verwendet werden.

  • Bildklassifikation - MXNet – verwendet Beispieldaten mit Antworten (bezeichnet als überwachter Algorithmus).   Verwenden Sie diesen Algorithmus zur Klassifikation von Bildern.

  • Bildklassifizierung – TensorFlow— verwendet vortrainierte TensorFlow Hub-Modelle zur Feinabstimmung für bestimmte Aufgaben (bezeichnet als überwachter Algorithmus).   Verwenden Sie diesen Algorithmus zur Klassifikation von Bildern.

  • Semantischer Segmentierungsalgorithm – bietet einen fein abgestimmten Ansatz auf Pixelebene für die Entwicklung von Computer Vision-Anwendungen.

  • Objekterkennung – MXNet – erkennt und klassifiziert Objekte in Bildern mithilfe eines einzigen tiefen neuronalen Netzwerks. Es handelt sich um einen überwachten Lernalgorithmus, der Bilder als Eingabe akzeptiert und alle Instances von Objekten innerhalb der Bilderszene identifiziert.

  • Objekterkennung – TensorFlow – erkennt Begrenzungsrahmen und Objektbezeichnungen in einem Bild. Es handelt sich um einen Algorithmus für überwachtes Lernen, der Transfer Learning mit verfügbaren vortrainierten TensorFlow Modellen unterstützt.