Verwenden Sie SageMaker integrierte Amazon-Algorithmen oder vortrainierte Modelle - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Sie SageMaker integrierte Amazon-Algorithmen oder vortrainierte Modelle

Amazon SageMaker bietet eine Reihe von integrierten Algorithmen, vortrainierten Modellen und vorgefertigten Lösungsvorlagen, um Datenwissenschaftlern und Machine-Learning-Experten den schnellen Einstieg in die Schulung und Bereitstellung von Modellen für maschinelles Lernen zu erleichtern. Für jemanden, der noch nicht damit vertraut ist SageMaker, kann die Auswahl des richtigen Algorithmus für Ihren speziellen Anwendungsfall eine herausfordernde Aufgabe sein. Die folgende Tabelle enthält einen kurzen Spickzettel, der zeigt, wie Sie mit einem Beispielproblem oder Anwendungsfall beginnen und einen geeigneten integrierten Algorithmus finden können, der von SageMaker diesem bereitgestellt wird und für diesen Problemtyp gültig ist. Zusätzliche Anleitungen, die nach Lernparadigmen (beaufsichtigt und unbeaufsichtigt) und wichtigen Datenbereichen (Text und Bilder) gegliedert sind, finden Sie in den Abschnitten nach der Tabelle.

Tabelle: Zuordnung von Anwendungsfällen zu integrierten Algorithmen
Beispielprobleme und Anwendungsfälle Lernparadigma oder -domäne Arten von Problemen Dateneingabeformat Eingebaute Algorithmen

Hier einige Beispiele der 15 Problemtypen, die mit den vortrainierten Modellen und vorgefertigten Lösungsvorlagen gelöst werden können, die bereitgestellt werden von SageMaker JumpStart:

Beantwortung von Fragen: Chatbot, der eine Antwort auf eine bestimmte Frage ausgibt.

Textanalyse: Analysieren Sie Texte aus Modellen, die für einen Branchenbereich wie Finanzen spezifisch sind.

Vortrainierte Modelle und vorgefertigte Lösungsvorlagen

Bildklassifizierung

Tabellarische Classification

Tabellarische Regression

Textklassifizierung

Objekterkennung

Texteinbettung

Beantwortung von Fragen

Satzpaar-Klassifizierung

Einbetten von Bildern

Named Entity Recognition

Segmentierung von Instanzen

Textgenerierung

Zusammenfassung des Textes

Semantische Segmentierung

Machine Ubersetzung

Bild, Text, Tabellarisch

Beliebte Modelle, darunter Mobilenet, YOLO, Faster R-CNN, BERT, LightGBM und CatBoost

Eine Liste der verfügbaren vortrainierten Modelle finden Sie unter JumpStart Modelle.

Eine Liste der verfügbaren vorgefertigten Lösungsvorlagen finden Sie unter JumpStart Lösungen.

Voraussagen, ob ein Artikel zu einer Kategorie gehört: einem E-Mail-Spam-Filter

Betreutes Lernen

Binäre/Mehrklassen-Klassifizierung

Tabellarisch

AutoGluon-Tabellarisch, CatBoost, Factorization Machines-Algorithmus, K-nearest neighbors (k-NN)-Algorithmus, Leichtes GBM, Algorithmus für lineares Lernen, TabTransformer, XGBoost-Algorithmus

Einen numerischen/kontinuierlichen Wert vorhersagen: Schätzen Sie den Wert eines Hauses

Regression

Tabellarisch

AutoGluon-Tabellarisch, CatBoost, Factorization Machines-Algorithmus, K-nearest neighbors (k-NN)-Algorithmus, Leichtes GBM, Algorithmus für lineares Lernen, TabTransformer, XGBoost-Algorithmus

Prognostizieren Sie das future Verhalten auf der Grundlage historischer Daten für ein Verhalten: prognostizieren Sie den Umsatz eines neuen Produkts auf der Grundlage früherer Verkaufsdaten.

Zeitreihenprognose

Tabellarisch

DeepAR-Prognosenalgorithmus

Verbessern Sie die Dateneinbettung der hochdimensionalen Objekte: Identifizieren Sie doppelte Support-Tickets oder finden Sie anhand der Textähnlichkeit in den Tickets das richtige Routing

Einbettungen: wandelt hochdimensionale Objekte in niedrigdimensionalen Raum um. Tabellarisch Object2Vec-Algorithmus

Löschen Sie die Spalten aus einem Datensatz, die einen schwachen Zusammenhang mit der Label-/Zielvariablen haben: der Farbe eines Autos bei der Vorhersage seines Kilometerstands.

Unbeaufsichtigtes Lernen

Feature-Engineering: Reduzierung der Dimensionalität

Tabellarisch

Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA)

Erkennen Sie abnormales Verhalten in einer Anwendung: Erkennen Sie, wenn ein IoT-Sensor abnormale Messwerte sendet

Anomalieerkennung

Tabellarisch

Random Cut Forest (RCF)-Algorithmus

Schützen Sie Ihre Anwendung vor verdächtigen Benutzern: Finden Sie heraus, ob eine IP-Adresse, die auf einen Dienst zugreift, von einem böswilligen Akteur stammt

IP-Anomalieerkennung

Tabellarisch

IP Insights

Gruppieren Sie ähnliche Objekte/Daten: Finden Sie Kunden mit hohen, mittleren und niedrigen Ausgaben anhand ihrer Transaktionshistorie

Clustering oder Gruppieren

Tabellarisch

k-Means-Algorithmus

Organisieren Sie eine Reihe von Dokumenten nach Themen (nicht im Voraus bekannt): Kennzeichnen Sie ein Dokument anhand der im Dokument verwendeten Begriffe als zu einer medizinischen Kategorie gehörend.

Themenmodellierung

Text

Latent Dirichlet Allocation (LDA)-Algorithmus, Algorithmus für neuronale Themenmodellierung (NTM)

Ordnen Sie Dokumenten in einem Korpus vordefinierte Kategorien zu: Kategorisieren Sie Bücher in einer Bibliothek in wissenschaftliche Disziplinen

Textanalyse

Textklassifizierung

Text

BlazingText Algorithmus, Textklassifizierung - TensorFlow

Konvertiere von Text von einer Sprache in eine andere: Spanisch in Englisch

Machine übersetzung

Algorithmus
Text

Sequence-to-Sequence-Algorithmus

Fassen Sie ein langes Textkorpus zusammen: eine Zusammenfassung für eine Forschungsarbeit

Zusammenfassung des Textes

Text

Sequence-to-Sequence-Algorithmus

Audiodateien in Text umwandeln: Transkribieren Sie Callcenter-Gespräche zur weiteren Analyse

Speech-to-text

Text

Sequence-to-Sequence-Algorithmus

Ein Bild anhand des Bildinhalts beschriften/taggen: Warnhinweise zu Inhalten für Erwachsene in einem Bild

Verarbeiten von Bildern

Bild- und Multilabel-Klassifizierung

Image

Bildklassifizierung - MXNet

Klassifizieren Sie etwas in einem Bild mithilfe von Transfer Learning.

Bildklassifizierung Image

Bildklassifizierung - TensorFlow

Personen und Gegenstände auf einem Bild erkennen: Die Polizei überprüft eine große Fotogalerie nach einer vermissten Person

Objekterkennung und Klassifizierung

Image

Objekterkennung - MXNet, Objekterkennung - TensorFlow

Tagge jedes Pixel eines Bildes einzeln mit einer Kategorie: Selbstfahrende Autos bereiten sich darauf vor, Objekte auf ihrem Weg zu identifizieren

Machine Vision

Image

Semantischer Segmentierungsalgorithm

Wichtige Informationen zu Docker-Registrierungspfaden, Datenformaten, empfohlenen Amazon EC2 EC2-Instance-Typen und CloudWatch Protokollen, die allen integrierten Algorithmen von gemeinsam sind SageMaker, finden Sie unterAllgemeine Informationen zu integrierten Algorithmen.

Die folgenden Abschnitte enthalten zusätzliche Hinweise für die SageMaker integrierten Algorithmen von Amazon, gruppiert nach den Paradigmen für überwachtes und unüberwachtes Lernen, zu denen sie gehören. Eine Beschreibung dieser Lernparadigmen und der zugehörigen Problemtypen finden Sie unterAuswählen eines Algorithmus. Es werden auch Abschnitte für die SageMaker integrierten Algorithmen bereitgestellt, die für zwei wichtige Bereiche des maschinellen Lernens verfügbar sind: Textanalyse und Bildverarbeitung.

Vortrainierte Modelle und Lösungsvorlagen

SageMaker JumpStart bietet eine Vielzahl von vortrainierten Modellen, vorgefertigten Lösungsvorlagen und Beispielen für gängige Problemtypen, die sowohl das SageMaker SDK als auch Studio verwenden. Weitere Informationen zu diesen Modellen, Lösungen und den von SageMaker JumpStart bereitgestellten Beispielnotebooks finden Sie unterSageMaker JumpStart.

Betreutes Lernen

Amazon SageMaker bietet mehrere integrierte Allzweckalgorithmen, die entweder für Klassifizierungs- oder Regressionsprobleme verwendet werden können.

  • AutoGluon-Tabellarisch—ein Open-Source-AutoML-Framework, das erfolgreich ist, indem es Modelle zusammenfügt und sie auf mehreren Ebenen stapelt.

  • CatBoost—eine Implementierung des Gradient-Boosted-Trees-Algorithmus, der eine geordnete Verstärkung und einen innovativen Algorithmus für die Verarbeitung kategorialer Merkmale einführt.

  • Factorization Machines-Algorithmus—eine Erweiterung eines linearen Modells, das darauf ausgelegt ist, Interaktionen zwischen Merkmalen in hochdimensionalen spärlichen Datensätzen wirtschaftlich zu erfassen.

  • K-nearest neighbors (k-NN)-Algorithmus—Eine nichtparametrische Methode, bei der die k nächstgelegenen beschrifteten Punkte verwendet werden, um einem neuen Datenpunkt für die Klassifizierung oder einem prognostizierten Zielwert aus dem Durchschnitt der k nächstgelegenen Punkte für die Regression eine Bezeichnung zuzuweisen.

  • Leichtes GBM—eine Implementierung des Gradient-Boosted-Trees-Algorithmus, der zwei neue Techniken für verbesserte Effizienz und Skalierbarkeit hinzufügt: Gradient-based One-Side Sampling (GOSS) und Exclusive Feature Bundling (EFB).

  • Algorithmus für lineares Lernen—lernt eine lineare Funktion für die Regression oder eine lineare Schwellenfunktion für die Klassifizierung.

  • TabTransformer—eine neuartige tieftabellarische Datenmodellierungsarchitektur, die auf self-attention-based Transformers basiert.

  • XGBoost-Algorithmus—eine Implementierung des Gradient-Boost-Algorithmus, der ein Ensemble von Schätzungen aus einer Reihe einfacherer und schwächerer Modelle kombiniert.

Amazon bietet SageMaker auch mehrere integrierte Algorithmen für überwachtes Lernen, die für speziellere Aufgaben beim Feature-Engineering und bei der Prognose anhand von Zeitreihendaten verwendet werden.

  • Object2Vec-Algorithmus—ein neuer hochgradig anpassbarer Mehrzweckalgorithmus, der für das Feature-Engineering verwendet wird. Es kann niedrigdimensionale, dichte Einbettungen hochdimensionaler Objekte erlernen, um Funktionen zu erzeugen, die die Trainingseffizienz für Downstream-Modelle verbessern. Dies ist zwar ein überwachter Algorithmus, da für das Training beschriftete Daten erforderlich sind, es gibt jedoch viele Szenarien, in denen die Beziehungsbezeichnungen ausschließlich aus natürlichen Clustern in Daten ohne explizite menschliche Anmerkung gewonnen werden können.

  • DeepAR-Prognosenalgorithmus—ein Algorithmus für überwachtes Lernen zur Prognose skalarer (eindimensionaler) Zeitreihen unter Verwendung rekurrenter neuronaler Netzwerke (RNN).

Unbeaufsichtigtes Lernen

Amazon SageMaker bietet mehrere integrierte Algorithmen, die für eine Vielzahl von unüberwachten Lernaufgaben wie Clustering, Dimensionsreduzierung, Mustererkennung und Anomalieerkennung verwendet werden können.

  • Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA)— reduziert die Dimensionalität (Anzahl der Features) innerhalb eines Datensatzes, indem Datenpunkte auf die ersten Hauptkomponenten projiziert werden. Ziel ist es, so viele Informationen oder Variationen wie möglich beizubehalten. Für Mathematiker sind die Hauptkomponenten Eigenvektoren der Kovarianzmatrix der Daten.

  • k-Means-Algorithmus—findet diskrete Gruppierungen innerhalb von Daten, bei denen Mitglieder einer Gruppe so stark wie möglich und unterscheiden sich so stark wie möglich von Mitgliedern anderer Gruppen.

  • IP Insights— lernt die Nutzungsmuster für IPv4-Adressen. Er wurde entwickelt, um Zuordnungen zwischen IPv4-Adressen und verschiedenen Entitys, wie beispielsweise Benutzer-IDs oder Kontonummern, zu erfassen.

  • Random Cut Forest (RCF)-Algorithmus—erkennt anomale Datenpunkte innerhalb eines Datensatzes, die von ansonsten gut strukturierten oder gemusterten Daten abweichen.

Textanalyse

SageMaker bietet Algorithmen, die auf die Analyse von Textdokumenten zugeschnitten sind, die bei der Verarbeitung natürlicher Sprache, der Klassifizierung oder Zusammenfassung von Dokumenten, der Themenmodellierung oder Klassifizierung sowie der Transkription oder Übersetzung von Sprachen verwendet werden.

  • BlazingText Algorithmus—eine hochoptimierte Implementierung der Word2VEC- und Textklassifizierungsalgorithmen, die sich problemlos auf große Datensätze skalieren lassen. Es ist nützlich für viele nachgelagerte Aufgaben der Verarbeitung natürlicher Sprache (NLP).

  • Sequence-to-Sequence-Algorithmus—ein überwachter Algorithmus, der häufig für neuronale maschinelle Übersetzung verwendet wird.

  • Latent Dirichlet Allocation (LDA)-Algorithmus—ein Algorithmus, der zur Bestimmung von Themen in einer Reihe von Dokumenten geeignet ist. Er ist ein unüberwachter Algorithmus, was bedeutet, dass während der Schulung keine Beispieldaten mit Antworten verwendet werden.

  • Algorithmus für neuronale Themenmodellierung (NTM)—eine weitere unbeaufsichtigte Technik zur Bestimmung von Themen in einer Reihe von Dokumenten unter Verwendung eines neuronalen Netzwerkansatzes.

  • Textklassifizierung - TensorFlow—ein überwachter Algorithmus, der Transferlernen mit verfügbaren vortrainierten Modellen für die Textklassifikation unterstützt.

Verarbeiten von Bildern

SageMaker bietet auch Bildverarbeitungsalgorithmen, die für die Bildklassifizierung, Objekterkennung und Computer Vision verwendet werden.

  • Bildklassifizierung - MXNet— verwendet Beispieldaten mit Antworten (ein sogenannter überwachter Algorithmus).   Verwenden Sie diesen Algorithmus zur Klassifikation von Bildern.

  • Bildklassifizierung - TensorFlow—verwendet vortrainierte TensorFlow Hub-Modelle zur Feinabstimmung für bestimmte Aufgaben (ein sogenannter überwachter Algorithmus).   Verwenden Sie diesen Algorithmus zur Klassifikation von Bildern.

  • Semantischer Segmentierungsalgorithm—bietet einen feinkörnigen Ansatz auf Pixelebene für die Entwicklung von Computer Vision-Anwendungen.

  • Objekterkennung - MXNet—erkennt und klassifiziert Objekte in Bildern mithilfe eines einzigen tiefen neuronalen Netzwerks. Es handelt sich um einen überwachten Lernalgorithmus, der Bilder als Eingabe akzeptiert und alle Instances von Objekten innerhalb der Bilderszene identifiziert.

  • Objekterkennung - TensorFlow— erkennt Begrenzungsrahmen und Objektbeschriftungen in einem Bild. Es ist ein Algorithmus für überwachtes Lernen, der Transferlernen mit verfügbaren vortrainierten TensorFlow Modellen unterstützt.