Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Modo multiclase
En el modo multiclase, la clasificación asigna una clase a cada documento. Las clases individuales se excluyen mutuamente. Por ejemplo, puede clasificar una película como comedia o ciencia ficción, pero no ambas.
nota
La consola Amazon Comprehend se refiere al modo multiclase como modo de etiqueta única.
Modelos de texto sin formato
Para entrenar un modelo de texto sin formato, puedes proporcionar datos de entrenamiento etiquetados como un CSV archivo o como un archivo de manifiesto aumentado de SageMaker Ground Truth.
CSVarchivo
Para obtener información general sobre el uso de CSV archivos para entrenar clasificadores, consulteCSVarchivos.
Proporcione los datos de entrenamiento en un archivo de dos columnasCSV. Para cada fila, la primera columna contiene el valor de la etiqueta de la clase. La segunda columna contiene un documento de texto de ejemplo para esa clase. Cada fila debe terminar con caracteres \n o \r\n.
El siguiente ejemplo muestra un CSV archivo que contiene tres documentos.
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
En el siguiente ejemplo, se muestra una fila de un CSV archivo que utiliza un clasificador personalizado para detectar si un mensaje de correo electrónico es spam:
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
Archivo de manifiesto aumentado
Para obtener información general sobre el uso de archivos de manifiesto aumentados para entrenar clasificadores, consulte Archivo de manifiesto aumentado.
En el caso de los documentos de texto plano, cada línea del archivo de manifiesto aumentado es un JSON objeto completo que contiene un documento de formación, un nombre de clase único y otros metadatos de Ground Truth. El siguiente ejemplo es un archivo de manifiesto aumentado para entrenar un clasificador personalizado para que reconozca los mensajes de correo no deseado:
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}} {"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}} {"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
El siguiente ejemplo muestra un JSON objeto del archivo de manifiesto aumentado, formateado para facilitar la lectura:
{ "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.", "MultiClassJob": 0, "MultiClassJob-metadata": { "confidence": 0.98, "job-name": "labeling-job/multiclassjob", "class-name": "spam", "human-annotated": "yes", "creation-date": "2020-05-21T17:36:45.814354", "type": "groundtruth/text-classification" } }
En este ejemplo, el atributo source
proporciona el texto del documento de entrenamiento y el atributo MultiClassJob
asigna el índice de una clase de una lista de clasificación. El atributo job-name
es el nombre que ha definido para el trabajo de etiquetado en Ground Truth.
Al iniciar el trabajo de entrenamiento sobre clasificadores en Amazon Comprehend, debe especificar el mismo nombre del trabajo de etiquetado.
Modelos de documentos nativos
Un modelo de documento nativo es un modelo que se entrena con documentos nativos (como PDFDOCX, e imágenes). Los datos de entrenamiento se proporcionan en forma de CSV archivo.
CSVarchivo
Para obtener información general sobre el uso de CSV archivos para entrenar clasificadores, consulteCSVarchivos.
Proporcione los datos de entrenamiento en un archivo de tres columnasCSV. Para cada fila, la primera columna contiene el valor de la etiqueta de la clase. La segunda columna contiene el nombre de archivo de un documento de ejemplo para esta clase. La tercera columna contiene el número de página. El número de página es opcional si el documento de ejemplo es una imagen.
El siguiente ejemplo muestra un CSV archivo que hace referencia a tres documentos de entrada.
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
El siguiente ejemplo muestra una fila de un CSV archivo que entrena un clasificador personalizado para detectar si un mensaje de correo electrónico es spam. La página 2 del PDF archivo contiene el ejemplo de correo no deseado.
SPAM,email-content-3.pdf,2