Modelado de temas

Puede utilizar Amazon Comprehend para examinar el contenido de una serie de documentos y determinar temas comunes. Por ejemplo, puede darle a Amazon Comprehend una serie de artículos de noticias y él determinará los temas, como deportes, política o entretenimiento. El texto de los documentos no necesita estar anotado.

Amazon Comprehend utiliza un modelo de aprendizaje basado en la Asignación de un dirichlet latente para determinar los temas de un conjunto de documentos. Examina cada documento para determinar el contexto y el significado de una palabra. El conjunto de palabras que suelen pertenecer al mismo contexto en todo el conjunto de documentos constituye un tema.

Una palabra se asocia a un tema de un documento en función de la prevalencia de ese tema en el documento y de la afinidad que tenga el tema con la palabra. La misma palabra se puede asociar a distintos temas en distintos documentos según la distribución de los temas en un documento concreto.

Por ejemplo, la palabra “glucosa” en un artículo que habla predominantemente de deportes puede asignarse al tema “deportes”, mientras que la misma palabra en un artículo sobre “medicina” se asignará al tema “medicina”.

A cada palabra relacionada con un tema se le asigna un peso que indica en qué medida la palabra ayuda a definir el tema. El peso indica cuántas veces aparece la palabra en el tema en comparación con otras palabras del tema, en todo el conjunto de documentos.

Para obtener resultados más precisos, debe proporcionar a Amazon Comprehend el corpus más grande posible con el que trabajar. Para obtener resultados óptimos:

Debe utilizar al menos 1000 documentos en cada trabajo de modelado de temas.
Cada documento debe tener al menos 3 oraciones.
Si un documento consta principalmente de datos numéricos, debe eliminarlo del corpus.

El modelado de temas es un proceso asíncrono. La lista de documentos se envía a Amazon Comprehend desde un bucket de Amazon S3 mediante la StartTopicsDetectionJoboperación. La respuesta se envía a un bucket de Amazon S3. Puede configurar los buckets de entrada y salida. Obtenga una lista de los trabajos de modelado por temas que haya enviado mediante la ListTopicsDetectionJobsoperación y consulte la información sobre un trabajo que utilice la DescribeTopicsDetectionJoboperación. El contenido entregado a los buckets de Amazon S3 puede contener contenido del cliente. Para obtener más información sobre la eliminación de información confidencial, consulte ¿Cómo puedo vaciar un bucket de S3? o ¿Cómo elimino un bucket de S3?.

Los documentos deben ser archivos con formato UTF-8. Puede enviar sus documentos en dos formatos. En la siguiente tabla se muestran las opciones.

Formato	Descripción
Un documento por archivo	Cada archivo contiene un documento de entrada. Esto es lo mejor para colecciones de documentos de gran tamaño.
Un documento por línea	La entrada es un solo archivo. Cada línea de un archivo se considera un documento. Esta opción es la mejor para documentos cortos, como publicaciones en redes sociales. Cada línea debe terminar con un salto de línea (LF,\n), un retorno de carro (CR,\ r) o ambos (CRLF,\ r\n). El separador de líneas Unicode (u+2028) no se puede usar para terminar una línea.

Formato

Descripción

Un documento por archivo

Cada archivo contiene un documento de entrada. Esto es lo mejor para colecciones de documentos de gran tamaño.

Un documento por línea

La entrada es un solo archivo. Cada línea de un archivo se considera un documento. Esta opción es la mejor para documentos cortos, como publicaciones en redes sociales.

Cada línea debe terminar con un salto de línea (LF,\n), un retorno de carro (CR,\ r) o ambos (CRLF,\ r\n). El separador de líneas Unicode (u+2028) no se puede usar para terminar una línea.

Para obtener más información, consulte el tipo de datos InputDataConfig.

Una vez que Amazon Comprehend procese su conjunto de documentos, devuelve un archivo comprimido que contiene dos archivos: topic-terms.csv y doc-topics.csv. Para obtener más información sobre el archivo de salida, consulte OutputDataConfig.

El primer archivo de salida, topic-terms.csv, es una lista de temas del conjunto. Para cada tema, la lista incluye, de forma predeterminada, los principales términos por tema según su importancia. Por ejemplo, si le da a Amazon Comprehend un conjunto de artículos de periódicos, podría devolver lo siguiente para describir los dos primeros temas del conjunto:

Tema	Plazo	Peso
000	equipo	0,118533
000	partido	0,106072
000	jugador	0,031625
000	temporada	0,023633
000	jugar	0,021118
000	yarda	0,024454
000	entrenador	0,016012
000	partidos	0,016191
000	fútbol	0,015049
000	quarterback	0,014239
001	copa	0,205236
001	alimento	0,040686
001	minutos	0,036062
001	agregar	0,029697
001	cucharada	0,028789
001	aceite	0,021254
001	pimienta	0,022205
001	cucharadita	0,020040
001	vino	0,016588
001	azúcar	0,015101

Los pesos representan una distribución de probabilidad entre las palabras de un tema determinado. Dado que Amazon Comprehend solo muestra las 10 palabras principales de cada tema, las ponderaciones no sumarán 1,0. En los raros casos en que un tema contenga menos de 10 palabras, las ponderaciones sumarán 1,0.

Las palabras se ordenan según su poder discriminatorio teniendo en cuenta su aparición en todos los temas. Normalmente es igual a su peso, pero en algunos casos, como en el caso de las palabras “jugar” y “yarda” de la tabla, el resultado es un orden que no coincide con el peso.

Usted puede especificar el número de temas que se van a devolver. Por ejemplo, si le pide a Amazon Comprehend que devuelva 25 temas, devolverá los 25 temas más destacados del conjunto. Amazon Comprehend puede detectar hasta 100 temas en un conjunto. Elija el número de temas en función de sus conocimientos del dominio. Puede ser necesario experimentar un poco para llegar al número correcto.

El segundo archivo, doc-topics.csv, enumera los documentos relacionados con un tema y la proporción del documento que trata sobre el tema. Si usted especificó ONE_DOC_PER_FILE, el documento se identifica por el nombre del archivo. Si usted especificó ONE_DOC_PER_LINE, el documento se identifica por el nombre del archivo y el número de línea indexado a 0 dentro del archivo. Por ejemplo, Amazon Comprehend podría devolver lo siguiente para un conjunto de documentos enviados con un documento por archivo:

Documento	Tema	Proporción
sample-doc1	000	0,999330137
sample-doc2	000	0,998532187
sample-doc3	000	0,998384574
...
sample-docN	000	3.57E-04

Amazon Comprehend utiliza información del conjunto de datos de listas de lematización de MBM, que está disponible aquí con la licencia de Open database license (ODbL) v1.0.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Amazon Comprehend Custom

Modos de procesamiento de documentos