Integrierte SageMaker-Algorithmen für Textdaten - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Integrierte SageMaker-Algorithmen für Textdaten

SageMaker bietet Algorithmen, die auf die Analyse von Textdokumenten zugeschnitten sind, die bei der Verarbeitung natürlicher Sprache, der Klassifizierung oder Zusammenfassung von Dokumenten, der Themenmodellierung oder -klassifizierung sowie der Transkription oder Übersetzung von Sprachen verwendet werden.

  • BlazingText-Algorithmus—eine hochoptimierte Implementierung von Word2VEC und Textklassifizierungsalgorithmen, die sich problemlos auf große Datensätze skalieren lässt. Es ist nützlich für viele nachgelagerte Aufgaben der Verarbeitung natürlicher Sprache (NLP).

  • Latent Dirichlet Allocation (LDA)-Algorithmus—dieser Algorithmus eignet sich für die Bestimmung von Themen in einer Reihe von Dokumenten. Er ist ein unüberwachter Algorithmus, was bedeutet, dass während der Schulung keine Beispieldaten mit Antworten verwendet werden.

  • Algorithmus für neuronale Themenmodellierung (NTM)—eine weitere unüberwachte Methode zur Bestimmung von Themen in einer Reihe von Dokumente mithilfe eines neuronalen Netzwerkansatzes.

  • Object2Vec-Algorithmus—ein Allzweck-Algorithmus zur neuronalen Einbettung, der für Empfehlungssysteme, Dokumentenklassifizierung und Satzeinbettung verwendet werden kann.

  • Sequence-to-Sequence-Algorithmus—dieser überwachte Algorithmus wird allgemein für neuronale Machine Übersetzung verwendet.

  • Textklassifizierung – TensorFlow—ein überwachter Algorithmus, der Transfer-Learning mit verfügbaren vortrainierten Modellen für die Textklassifizierung unterstützt.

Algorithmusname Kanalname Schulungseingabemodus Dateityp Instance class Parallelisierbar
BlazingText "train" Datei oder Pipe Textdatei (ein Satz pro Zeile mit durch Leerzeichen getrennten Token) GPU (nur einzelne Instance) oder CPU Nein
LDA "train" und (optional) "test" Datei oder Pipe recordIO-protobuf oder CSV CPU (nur einzelne Instance) Nein
Neural Topic Modeling "train" und (optional) "validation", "test" oder beides Datei oder Pipe recordIO-protobuf oder CSV GPU oder CPU Ja
Object2Vec "train" und (optional) "validation", "test" oder beides Datei JSON Lines GPU oder CPU (nur einzelne Instance) Nein
Seq2Seq Modeling "train", "validation" und "vocab" Datei recordIO-protobuf GPU (nur einzelne Instance) Nein
Textklassifizierung - TensorFlow Schulung und Validierung Datei CSV CPU oder GPU Ja (nur für mehrere GPUs auf einer einzigen Instance)