Modelos de clasificación de entrenamiento

Para entrenar un modelo para una clasificación personalizada, debe definir las categorías y proporcionar documentos de ejemplo para entrenar el modelo personalizado. El modelo se entrena en modo multiclase o multietiqueta. El modo multiclase asocia una sola clase a cada documento. El modo multietiqueta asocia una o más clases a cada documento.

La clasificación personalizada admite dos tipos de modelos de clasificadores: modelos de texto sin formato y modelos de documentos nativos. Un modelo de texto sin formato clasifica los documentos en función de su contenido de texto. Un modelo de documento nativo también clasifica los documentos en función del contenido del texto. Un modelo de documento nativo también puede utilizar señales adicionales, como las del diseño del documento. Se entrena un modelo de documento nativo con documentos nativos para que el modelo aprenda la información de diseño.

Los modelos de texto sin formato tienen las siguientes características:

El modelo se entrena con documentos de texto codificados en UTF-8.
Puede entrenar el modelo con documentos en uno de los siguientes idiomas: inglés, español, alemán, italiano, francés o portugués.
Todos los documentos de entrenamiento de un clasificador determinado deben utilizar el mismo idioma.
Los documentos de entrenamiento son texto sin formato, por lo que no hay cargos adicionales por la extracción del texto.

Los modelos de documentos nativos tienen las siguientes características:

El modelo se entrena con documentos semiestructurados que incluyen los siguientes tipos de documentos:
- Documentos PDF digitales y escaneados.
- Documentos Word (DOCX).
- Imágenes: archivos JPG, archivos PNG y archivos TIFF de una sola página.
- La API Textract genera archivos JSON.
El modelo se entrena con documentos redactados en inglés.
Si sus documentos de entrenamiento incluyen archivos de documentos escaneados, incurrirá en cargos adicionales por la extracción del texto. Consulte la página de precios de Amazon Comprehend para obtener más información.

Puede clasificar cualquiera de los tipos de documentos admitidos utilizando cualquier tipo de modelo. Sin embargo, para obtener resultados más precisos, se recomienda utilizar un modelo de texto sin formato para clasificar los documentos de texto sin formato y un modelo de documento nativo para clasificar los documentos semiestructurados.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Modo multietiqueta

Cómo entrenar clasificadores personalizados (consola)