SageMaker Algoritmi integrati per dati di testo

SageMaker fornisce algoritmi personalizzati per l'analisi dei documenti testuali utilizzati nell'elaborazione del linguaggio naturale, nella classificazione o riepilogo dei documenti, nella modellazione o classificazione degli argomenti e nella trascrizione o traduzione linguistica.

BlazingText algoritmo: un'implementazione altamente ottimizzata di Word2vec e algoritmi di classificazione del testo che si adattano facilmente a set di dati di grandi dimensioni. È utile per molte attività successive di elaborazione del linguaggio naturale (NLP).
Algoritmo Allocazione latente di Dirichlet (LDA, Latent Dirichlet Allocation): un algoritmo idoneo per determinare gli argomenti in un set di documenti. Si tratta di un algoritmo non supervisionato e pertanto non utilizza dati di esempio con risposte durante l'addestramento.
Algoritmo Modello neurale di argomenti (NTM): un'altra tecnica non supervisionata per determinare gli argomenti in un set di documenti, utilizzando un approccio di rete neurale.
Algoritmo Object2Vec: un algoritmo di incorporamento neurale generico che può essere utilizzato per sistemi di raccomandazione, classificazione di documenti e incorporamento di frasi.
Algoritmo Sequence-to-Sequence: questo algoritmo supervisionato è utilizzato comunemente per la traduzione automatica neurale.
Classificazione del testo - TensorFlow: un algoritmo supervisionato che supporta l’apprendimento del trasferimento con modelli preaddestrati disponibili per la classificazione del testo.

Nome algoritmo	Nome canale	Modalità di input per l'addestramento	Tipo di file	Classe di istanza	Parallelizzabile
BlazingText	Addestramento	File o Pipe	File di testo (una frase per riga con token separati da spazio)	GPU (solo istanza singola) o CPU	No
LDA	addestrare e (facoltativamente) testare	File o Pipe	recordIO-protobuf o CSV	CPU (solo istanza singola)	No
Modello argomento neurale	addestra e (facoltativamente) convalida, test o entrambi	File o Pipe	recordIO-protobuf o CSV	GPU o CPU	Sì
Object2Vec	addestra e (facoltativamente) convalida, test o entrambi	File	JSON Lines	GPU o CPU (solo istanza singola)	No
Modellazione Seq2Seq	addestramento, convalida e vocab	File	recordIO-protobuf	GPU (solo istanza singola)	No
Classificazione del testo - TensorFlow	Addestramento e convalida	File	CSV	CPU o GPU	Sì (solo su GPU multipli su una Istanza singola)

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

XGBoost versione 0.72

BlazingText