Modelado de temas - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Modelado de temas

Puede utilizar Amazon Comprehend para examinar el contenido de una serie de documentos y determinar temas comunes. Por ejemplo, puede darle a Amazon Comprehend una serie de artículos de noticias y él determinará los temas, como deportes, política o entretenimiento. El texto de los documentos no necesita estar anotado.

Amazon Comprehend utiliza un modelo de aprendizaje basado en la Asignación de un dirichlet latente para determinar los temas de un conjunto de documentos. Examina cada documento para determinar el contexto y el significado de una palabra. El conjunto de palabras que suelen pertenecer al mismo contexto en todo el conjunto de documentos constituye un tema.

Una palabra se asocia a un tema de un documento en función de la prevalencia de ese tema en el documento y de la afinidad que tenga el tema con la palabra. La misma palabra se puede asociar a distintos temas en distintos documentos según la distribución de los temas en un documento concreto.

Por ejemplo, la palabra “glucosa” en un artículo que habla predominantemente de deportes puede asignarse al tema “deportes”, mientras que la misma palabra en un artículo sobre “medicina” se asignará al tema “medicina”.

A cada palabra relacionada con un tema se le asigna un peso que indica en qué medida la palabra ayuda a definir el tema. El peso indica cuántas veces aparece la palabra en el tema en comparación con otras palabras del tema, en todo el conjunto de documentos.

Para obtener resultados más precisos, debe proporcionar a Amazon Comprehend el corpus más grande posible con el que trabajar. Para obtener resultados óptimos:

  • Debe utilizar al menos 1000 documentos en cada trabajo de modelado de temas.

  • Cada documento debe tener al menos 3 oraciones.

  • Si un documento consta principalmente de datos numéricos, debe eliminarlo del corpus.

El modelado de temas es un proceso asíncrono. La lista de documentos se envía a Amazon Comprehend desde un bucket de Amazon S3 mediante la StartTopicsDetectionJoboperación. La respuesta se envía a un bucket de Amazon S3. Puede configurar los buckets de entrada y salida. Obtenga una lista de los trabajos de modelado por temas que haya enviado mediante la ListTopicsDetectionJobsoperación y consulte la información sobre un trabajo que utilice la DescribeTopicsDetectionJoboperación. El contenido entregado a los buckets de Amazon S3 puede contener contenido del cliente. Para obtener más información sobre la eliminación de información confidencial, consulte ¿Cómo puedo vaciar un bucket de S3? o ¿Cómo elimino un bucket de S3?.

Los documentos deben ser archivos con formato UTF-8. Puede enviar sus documentos en dos formatos. En la siguiente tabla se muestran las opciones.

Formato Descripción
Un documento por archivo Cada archivo contiene un documento de entrada. Esto es lo mejor para colecciones de documentos de gran tamaño.
Un documento por línea

La entrada es un solo archivo. Cada línea de un archivo se considera un documento. Esta opción es la mejor para documentos cortos, como publicaciones en redes sociales.

Cada línea debe terminar con un salto de línea (LF,\n), un retorno de carro (CR,\ r) o ambos (CRLF,\ r\n). El separador de líneas Unicode (u+2028) no se puede usar para terminar una línea.

Para obtener más información, consulte el tipo de datos InputDataConfig.

Una vez que Amazon Comprehend procese su conjunto de documentos, devuelve un archivo comprimido que contiene dos archivos: topic-terms.csv y doc-topics.csv. Para obtener más información sobre el archivo de salida, consulte OutputDataConfig.

El primer archivo de salida, topic-terms.csv, es una lista de temas del conjunto. Para cada tema, la lista incluye, de forma predeterminada, los principales términos por tema según su importancia. Por ejemplo, si le da a Amazon Comprehend un conjunto de artículos de periódicos, podría devolver lo siguiente para describir los dos primeros temas del conjunto:

Tema Plazo Peso
000 equipo 0,118533
000 partido 0,106072
000 jugador 0,031625
000 temporada 0,023633
000 jugar 0,021118
000 yarda 0,024454
000 entrenador 0,016012
000 partidos 0,016191
000 fútbol 0,015049
000 quarterback 0,014239
001 copa 0,205236
001 alimento 0,040686
001 minutos 0,036062
001 agregar 0,029697
001 cucharada 0,028789
001 aceite 0,021254
001 pimienta 0,022205
001 cucharadita 0,020040
001 vino 0,016588
001 azúcar 0,015101

Los pesos representan una distribución de probabilidad entre las palabras de un tema determinado. Dado que Amazon Comprehend solo muestra las 10 palabras principales de cada tema, las ponderaciones no sumarán 1,0. En los raros casos en que un tema contenga menos de 10 palabras, las ponderaciones sumarán 1,0.

Las palabras se ordenan según su poder discriminatorio teniendo en cuenta su aparición en todos los temas. Normalmente es igual a su peso, pero en algunos casos, como en el caso de las palabras “jugar” y “yarda” de la tabla, el resultado es un orden que no coincide con el peso.

Usted puede especificar el número de temas que se van a devolver. Por ejemplo, si le pide a Amazon Comprehend que devuelva 25 temas, devolverá los 25 temas más destacados del conjunto. Amazon Comprehend puede detectar hasta 100 temas en un conjunto. Elija el número de temas en función de sus conocimientos del dominio. Puede ser necesario experimentar un poco para llegar al número correcto.

El segundo archivo, doc-topics.csv, enumera los documentos relacionados con un tema y la proporción del documento que trata sobre el tema. Si usted especificó ONE_DOC_PER_FILE, el documento se identifica por el nombre del archivo. Si usted especificó ONE_DOC_PER_LINE, el documento se identifica por el nombre del archivo y el número de línea indexado a 0 dentro del archivo. Por ejemplo, Amazon Comprehend podría devolver lo siguiente para un conjunto de documentos enviados con un documento por archivo:

Documento Tema Proporción
sample-doc1 000 0,999330137
sample-doc2 000 0,998532187
sample-doc3 000 0,998384574
...    
sample-docN 000 3.57E-04

Amazon Comprehend utiliza información del conjunto de datos de listas de lematización de MBM, que está disponible aquí con la licencia de Open database license (ODbL) v1.0.