Algorithmes SageMaker intégrés pour les données texte
SageMaker fournit des algorithmes adaptés à l'analyse des documents texte utilisés dans le traitement du langage naturel, la classification ou la synthèse des documents, la modélisation ou la classification des rubriques, ainsi que la transcription ou la traduction des langues.
-
Algorithme BlazingText : implémentation hautement optimisée des algorithmes de classification textuelle et Word2vec qui s'adaptent facilement à de grands jeux de données. Elle est utile pour de nombreuses tâches de traitement du langage naturel (NLP).
-
Algorithme LDA (Latent Dirichlet Allocation, allocation de Dirichlet latente) : algorithme utile pour déterminer les rubriques d'un ensemble de documents. Il s'agit d'un algorithme non supervisé, ce qui signifie qu'il n'utilise pas d'exemples de données avec des réponses au cours de l'entraînement.
-
Algorithme NTM (Neural Topic Model) : autre technique non supervisée permettant de déterminer les rubriques d'un ensemble de documents, à l'aide d'une approche réseau neuronale.
-
Algorithme Object2Vec : algorithme d'intégration neuronal polyvalent qui peut être utilisé pour les systèmes de recommandation, la classification de documents et l'intégration de phrases.
-
Algorithme seq2seq (Sequence-to-Sequence) : algorithme supervisé couramment utilisé pour la traduction automatique neuronale.
Nom de l'algorithme | Nom du canal | Mode d'entrée de l'entraînement | Type de fichier | Classe d'instance | Parallélisable |
---|---|---|---|---|---|
BlazingText | train | Fichier ou Tube | Fichier texte (une phrase par ligne avec des jetons séparés par des espaces) | GPU (une seule instance uniquement) ou CPU | Non |
LDA | train et (facultativement) test | Fichier ou Tube | recordIO-protobuf ou CSV | CPU (une seule instance uniquement) | Non |
Neural Topic Model (NTM) | train et (facultativement) validation, test, ou les deux | Fichier ou Tube | recordIO-protobuf ou CSV | GPU ou CPU | Oui |
Object2Vec | train et (facultativement) validation, test, ou les deux | Fichier | JSON Lines | GPU ou UC (une seule instance uniquement) | Non |
Modélisation Seq2Seq | train, validation et vocab | Fichier | recordIO-protobuf | GPU (une seule instance uniquement) | Non |