Reconocimiento de entidades personalizado

El reconocimiento de entidades personalizadas amplía la capacidad de Amazon Comprehend al ayudarle a identificar sus nuevos tipos de entidades específicas que no se encuentran en los tipos de entidades genéricas preestablecidos. Esto significa que puede analizar documentos y extraer entidades, como códigos de productos o entidades específicas de la empresa, que se adapten a sus necesidades particulares.

Crear un reconocedor de entidades personalizado y preciso por su cuenta puede ser un proceso complejo, que requiere la preparación de grandes conjuntos de documentos de entrenamiento anotados manualmente y la selección de los algoritmos y parámetros correctos para el entrenamiento de modelo. Amazon Comprehend ayuda a reducir la complejidad al proporcionar anotaciones automáticas y desarrollo de modelos para crear un modelo de reconocimiento de entidades personalizado.

Crear un modelo de reconocimiento de entidades personalizado es un enfoque más eficaz que utilizar coincidencias de cadenas o expresiones regulares para extraer entidades de los documentos. Por ejemplo, para extraer los nombres de INGENIEROS de un documento, resulta difícil enumerar todos los nombres posibles. Además, sin contexto, es difícil distinguir entre los nombres de los INGENIEROS y los de los ANALISTAS. Un modelo de reconocimiento de entidades personalizado puede aprender el contexto en el que es probable que aparezcan esos nombres. Además, la coincidencia de cadenas no detectará las entidades que tengan errores tipográficos o que sigan nuevas convenciones de nomenclatura, si bien esto es posible con un modelo personalizado.

Dispone de dos opciones para crear un modelo personalizado:

Anotaciones: proporcionan un conjunto de datos que contiene entidades anotadas para el entrenamiento del modelo.
Listas de entidades (solo texto sin formato): proporcionan una lista de entidades y su tipo de etiqueta (tales como PRODUCT_CODES) y un conjunto de documentos sin anotaciones que contengan esas entidades para el entrenamiento de modelo.

Al crear un reconocedor de entidades personalizado con archivos PDF anotados, puede utilizar ese reconocedor con una variedad de formatos de archivo de entrada: texto sin formato, archivos de imagen (JPG, PNG, TIFF), archivos PDF y documentos de Word, sin necesidad de preprocesamiento ni aplanado de los documentos. Amazon Comprehend no admite la anotación de archivos de imagen o documentos de Word.

nota

Un reconocedor de entidades personalizado que utilice archivos PDF anotados solo admite documentos en inglés.

Puede entrenar un modelo en hasta 25 entidades personalizadas a la vez. Para obtener más información, consulte la página Directrices y cuotas.

Una vez entrenado el modelo, puede usarlo para la detección de entidades en tiempo real y en los trabajos de detección de entidades.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Salidas para trabajos de análisis

Preparación de los datos de entrenamiento