Modelos de clasificación de entrenamiento - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Modelos de clasificación de entrenamiento

Para entrenar un modelo para una clasificación personalizada, debe definir las categorías y proporcionar documentos de ejemplo para entrenar el modelo personalizado. El modelo se entrena en modo multiclase o multietiqueta. El modo multiclase asocia una sola clase a cada documento. El modo multietiqueta asocia una o más clases a cada documento.

La clasificación personalizada admite dos tipos de modelos de clasificadores: modelos de texto sin formato y modelos de documentos nativos. Un modelo de texto sin formato clasifica los documentos en función de su contenido de texto. Un modelo de documento nativo también clasifica los documentos en función del contenido del texto. Un modelo de documento nativo también puede utilizar señales adicionales, como las del diseño del documento. Se entrena un modelo de documento nativo con documentos nativos para que el modelo aprenda la información de diseño.

Los modelos de texto sin formato tienen las siguientes características:

  • El modelo se entrena con UTF -8 documentos de texto codificados.

  • Puede entrenar el modelo con documentos en uno de los siguientes idiomas: inglés, español, alemán, italiano, francés o portugués.

  • Todos los documentos de entrenamiento de un clasificador determinado deben utilizar el mismo idioma.

  • Los documentos de entrenamiento son texto sin formato, por lo que no hay cargos adicionales por la extracción del texto.

Los modelos de documentos nativos tienen las siguientes características:

  • El modelo se entrena con documentos semiestructurados que incluyen los siguientes tipos de documentos:

    • PDFDocumentos digitales y escaneados.

    • Documentos de Word (DOCX).

    • Imágenes: JPG archivos, PNG archivos y TIFF archivos de una sola página.

    • Archivos de API salida JSON de Textract.

  • El modelo se entrena con documentos redactados en inglés.

  • Si sus documentos de entrenamiento incluyen archivos de documentos escaneados, incurrirá en cargos adicionales por la extracción del texto. Consulte la página de precios de Amazon Comprehend para obtener más información.

Puede clasificar cualquiera de los tipos de documentos admitidos utilizando cualquier tipo de modelo. Sin embargo, para obtener resultados más precisos, se recomienda utilizar un modelo de texto sin formato para clasificar los documentos de texto sin formato y un modelo de documento nativo para clasificar los documentos semiestructurados.