Algorithmes SageMaker intégrés pour les données texte - Amazon SageMaker

Algorithmes SageMaker intégrés pour les données texte

SageMaker fournit des algorithmes adaptés à l'analyse des documents texte utilisés dans le traitement du langage naturel, la classification ou la synthèse des documents, la modélisation ou la classification des rubriques, ainsi que la transcription ou la traduction des langues.

  • Algorithme BlazingText : implémentation hautement optimisée des algorithmes de classification textuelle et Word2vec qui s'adaptent facilement à de grands jeux de données. Elle est utile pour de nombreuses tâches de traitement du langage naturel (NLP).

  • Algorithme LDA (Latent Dirichlet Allocation, allocation de Dirichlet latente) : algorithme utile pour déterminer les rubriques d'un ensemble de documents. Il s'agit d'un algorithme non supervisé, ce qui signifie qu'il n'utilise pas d'exemples de données avec des réponses au cours de l'entraînement.

  • Algorithme NTM (Neural Topic Model) : autre technique non supervisée permettant de déterminer les rubriques d'un ensemble de documents, à l'aide d'une approche réseau neuronale.

  • Algorithme Object2Vec : algorithme d'intégration neuronal polyvalent qui peut être utilisé pour les systèmes de recommandation, la classification de documents et l'intégration de phrases.

  • Algorithme seq2seq (Sequence-to-Sequence) : algorithme supervisé couramment utilisé pour la traduction automatique neuronale.

Nom de l'algorithme Nom du canal Mode d'entrée de l'entraînement Type de fichier Classe d'instance Parallélisable
BlazingText train Fichier ou Tube Fichier texte (une phrase par ligne avec des jetons séparés par des espaces) GPU (une seule instance uniquement) ou CPU Non
LDA train et (facultativement) test Fichier ou Tube recordIO-protobuf ou CSV CPU (une seule instance uniquement) Non
Neural Topic Model (NTM) train et (facultativement) validation, test, ou les deux Fichier ou Tube recordIO-protobuf ou CSV GPU ou CPU Oui
Object2Vec train et (facultativement) validation, test, ou les deux Fichier JSON Lines GPU ou UC (une seule instance uniquement) Non
Modélisation Seq2Seq train, validation et vocab Fichier recordIO-protobuf GPU (une seule instance uniquement) Non