SageMaker Algoritmi integrati per dati di testo - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker Algoritmi integrati per dati di testo

SageMaker fornisce algoritmi personalizzati per l'analisi dei documenti testuali utilizzati nell'elaborazione del linguaggio naturale, nella classificazione o riepilogo dei documenti, nella modellazione o classificazione degli argomenti e nella trascrizione o traduzione linguistica.

  • BlazingText algoritmo: un'implementazione altamente ottimizzata di Word2vec e algoritmi di classificazione del testo che si adattano facilmente a set di dati di grandi dimensioni. È utile per molte attività successive di elaborazione del linguaggio naturale (NLP).

  • Algoritmo Allocazione latente di Dirichlet (LDA, Latent Dirichlet Allocation): un algoritmo idoneo per determinare gli argomenti in un set di documenti. Si tratta di un algoritmo non supervisionato e pertanto non utilizza dati di esempio con risposte durante l'addestramento.

  • Algoritmo Modello neurale di argomenti (NTM): un'altra tecnica non supervisionata per determinare gli argomenti in un set di documenti, utilizzando un approccio di rete neurale.

  • Algoritmo Object2Vec: un algoritmo di incorporamento neurale generico che può essere utilizzato per sistemi di raccomandazione, classificazione di documenti e incorporamento di frasi.

  • Algoritmo Sequence-to-Sequence: questo algoritmo supervisionato è utilizzato comunemente per la traduzione automatica neurale.

  • Classificazione del testo - TensorFlow: un algoritmo supervisionato che supporta l’apprendimento del trasferimento con modelli preaddestrati disponibili per la classificazione del testo.

Nome algoritmo Nome canale Modalità di input per l'addestramento Tipo di file Classe di istanza Parallelizzabile
BlazingText Addestramento File o Pipe File di testo (una frase per riga con token separati da spazio) GPU (solo istanza singola) o CPU No
LDA addestrare e (facoltativamente) testare File o Pipe recordIO-protobuf o CSV CPU (solo istanza singola) No
Modello argomento neurale addestra e (facoltativamente) convalida, test o entrambi File o Pipe recordIO-protobuf o CSV GPU o CPU
Object2Vec addestra e (facoltativamente) convalida, test o entrambi File JSON Lines GPU o CPU (solo istanza singola) No
Modellazione Seq2Seq addestramento, convalida e vocab File recordIO-protobuf GPU (solo istanza singola) No
Classificazione del testo - TensorFlow Addestramento e convalida File CSV CPU o GPU Sì (solo su GPU multipli su una Istanza singola)