Integrierte SageMaker KI-Algorithmen für Textdaten

SageMaker KI bietet Algorithmen, die auf die Analyse von Textdokumenten zugeschnitten sind, die bei der Verarbeitung natürlicher Sprache, der Klassifizierung oder Zusammenfassung von Dokumenten, der Themenmodellierung oder -klassifizierung sowie der Transkription oder Übersetzung von Sprachen verwendet werden.

BlazingText Algorithmus – Eine hochoptimierte Implementierung von Word2VEC und Textklassifizierungsalgorithmen, die sich problemlos auf große Datensätze skalieren lässt. Es ist nützlich für viele nachgelagerte Aufgaben der Verarbeitung natürlicher Sprache (NLP).
Latent Dirichlet Allocation (LDA)-Algorithmus–dieser Algorithmus eignet sich für die Bestimmung von Themen in einer Reihe von Dokumenten. Er ist ein unüberwachter Algorithmus, was bedeutet, dass während des Trainings keine Beispieldaten mit Antworten verwendet werden.
Algorithmus für neuronale Themenmodellierung (NTM)–eine weitere unüberwachte Methode zur Bestimmung von Themen in einer Reihe von Dokumente mithilfe eines neuronalen Netzwerkansatzes.
Object2Vec-Algorithmus–ein Allzweck-Algorithmus zur neuronalen Einbettung, der für Empfehlungssysteme, Dokumentenklassifizierung und Satzeinbettung verwendet werden kann.
Sequence-to-Sequence Algorithmus–dieser überwachte Algorithmus wird allgemein für neuronale Machine Übersetzung verwendet.
Textklassifizierung - TensorFlow–ein überwachter Algorithmus, der Transfer-Learning mit verfügbaren vortrainierten Modellen für die Textklassifizierung unterstützt.

Name des Algorithmus	Kanalname	Trainingseingabemodus	Dateityp	Instance-Klasse	Parallelisierbar
BlazingText	"train"	Datei oder Pipe	Textdatei (ein Satz pro Zeile mit durch Leerzeichen getrennten Token)	GPU (nur einzelne Instance) oder CPU	Nein
LDA	"train" und (optional) "test"	Datei oder Pipe	recordIO-protobuf oder CSV	CPU (nur einzelne Instance)	Nein
Neural Topic Modeling	"train" und (optional) "validation", "test" oder beides	Datei oder Pipe	recordIO-protobuf oder CSV	GPU oder CPU	Ja
Object2Vec	"train" und (optional) "validation", "test" oder beides	Datei	JSON-Lines	GPU oder CPU (nur einzelne Instance)	Nein
Seq2Seq Modeling	"train", "validation" und "vocab"	Datei	recordIO-protobuf	GPU (nur einzelne Instance)	Nein
Textklassifizierung - TensorFlow	Training und Validierung	Datei	CSV	CPU oder GPU	Ja (nur für mehrere GPUs auf einer einzigen Instanz)

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

XGBoost Version 0.72

BlazingText