Modo multietiqueta - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Modo multietiqueta

En el modo multietiqueta, las clases individuales representan categorías diferentes que no se excluyen mutuamente. La clasificación multietiqueta asigna una o más clases a cada documento. Por ejemplo, puede clasificar una película como documental y otra como de ciencia ficción, acción y comedia.

Para el entrenamiento, el modo multietiqueta admite hasta 1 millón de ejemplos que contienen hasta 100 clases únicas.

Modelos de texto sin formato

Para entrenar un modelo de texto sin formato, puedes proporcionar datos de entrenamiento etiquetados como un archivo CSV o como un archivo de manifiesto aumentado de SageMaker Ground Truth.

Archivo CSV

Para obtener información general sobre el uso de archivos CSV para entrenar clasificadores, consulte Archivo CSV.

Proporcione los datos de entrenamiento en un archivo CSV de dos columnas. Para cada fila, la primera columna contiene los valores de las etiquetas de clase y la segunda columna contiene un documento de texto de ejemplo para estas clases. Para introducir más de una clase en la primera columna, utilice un delimitador (como |) entre cada clase.

CLASS,Text of document 1 CLASS,Text of document 2 CLASS|CLASS|CLASS,Text of document 3

En el siguiente ejemplo, se muestra una fila de un archivo CSV que entrena un clasificador personalizado para detectar los géneros en los resúmenes de películas:

COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"

El delimitador predeterminado entre los nombres de las clases es una barra vertical (|). Ahora bien, puede utilizar un carácter distinto como delimitador. El delimitador debe ser distinto de todos los caracteres de los nombres de las clases. Por ejemplo, si las clases son CLASS_1, CLASS_2 y CLASS_3, el guion bajo (_) forma parte del nombre de la clase. Por lo tanto, no utilice un guion bajo como delimitador para separar los nombres de las clases.

Archivo de manifiesto aumentado

Para obtener información general sobre el uso de archivos de manifiesto aumentados para entrenar clasificadores, consulte Archivo de manifiesto aumentado.

En el caso de los documentos de texto sin formato, cada línea del archivo de manifiesto aumentado es un objeto JSON completo. Contiene un documento de entrenamiento, nombres de clases y otros metadatos de Ground Truth. El siguiente ejemplo es un archivo de manifiesto aumentado para entrenar un clasificador personalizado para detectar géneros en los resúmenes de películas:

{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}

El siguiente ejemplo muestra un objeto JSON del archivo de manifiesto aumentado, formateado para facilitar la lectura:

{ "source": "A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?", "MultiLabelJob": [ 3, 8, 10, 11 ], "MultiLabelJob-metadata": { "job-name": "labeling-job/multilabeljob", "class-map": { "3": "comedy", "8": "mystery", "10": "science_fiction", "11": "teen" }, "human-annotated": "yes", "creation-date": "2020-05-21T19:00:01.291202", "confidence-map": { "3": 0.95, "8": 0.77, "10": 0.83, "11": 0.92 }, "type": "groundtruth/text-classification-multilabel" } }

En este ejemplo, el atributo source proporciona el texto del documento de entrenamiento y el atributo MultiLabelJob asigna los índices de varias clases de una lista de clasificación. El nombre del trabajo en los metadatos MultiLabelJob es el nombre que definió para el trabajo de etiquetado en Ground Truth.

Modelos de documentos nativos

Un modelo de documento nativo es un modelo que se entrena con documentos nativos (como PDF, DOCX y archivos de imagen). Proporciona datos de entrenamiento etiquetados como un archivo CSV.

Archivo CSV

Para obtener información general sobre el uso de archivos CSV para entrenar clasificadores, consulte Archivo CSV.

Proporcione los datos de entrenamiento en un archivo CSV de tres columnas. Para cada fila, la primera columna contiene los valores de las etiquetas de clase. La segunda columna contiene el nombre de archivo de un documento de ejemplo para estas clases. La tercera columna contiene el número de página. El número de página es opcional si el documento de ejemplo es una imagen.

Para introducir más de una clase en la primera columna, utilice un delimitador (como |) entre cada clase.

CLASS,input-doc-1.pdf,3 CLASS,input-doc-2.docx,1 CLASS|CLASS|CLASS,input-doc-3.png,2

En el siguiente ejemplo, se muestra una fila de un archivo CSV que entrena un clasificador personalizado para detectar los géneros en los resúmenes de películas. La página 2 del archivo PDF contiene el ejemplo de una película de género comedia o para adolescentes.

COMEDY|TEEN,movie-summary-1.pdf,2

El delimitador predeterminado entre los nombres de las clases es una barra vertical (|). Ahora bien, puede utilizar un carácter distinto como delimitador. El delimitador debe ser distinto de todos los caracteres de los nombres de las clases. Por ejemplo, si las clases son CLASS_1, CLASS_2 y CLASS_3, el guion bajo (_) forma parte del nombre de la clase. Por lo tanto, no utilice un guion bajo como delimitador para separar los nombres de las clases.