Annotations - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Annotations

Las anotaciones etiquetan las entidades en su contexto, asociando los tipos de entidades personalizados a las ubicaciones en las que se encuentran en los documentos de entrenamiento.

Al enviar las anotaciones junto con los documentos, puede aumentar la precisión del modelo. Con las anotaciones, no solo proporciona la ubicación de la entidad que busca, sino que también proporciona un contexto más preciso a la entidad personalizada que busca.

Por ejemplo, si busca el nombre John Johnson y el tipo de entidad JUDGE, incluir su anotación podría ayudar al modelo a darse cuenta de que la persona que quiere encontrar es juez. Si puede utilizar el contexto, Amazon Comprehend no encontrará a personas llamadas John Johnson que sean abogados o testigos. Sin incluir anotaciones, Amazon Comprehend creará su propia versión de una anotación, pero no será tan eficaz al incluir solo a los jueces. Proporcionar sus propias anotaciones puede ayudarle a obtener mejores resultados y a generar modelos que sean capaces de aprovechar mejor el contexto a la hora de extraer entidades personalizadas.

Número mínimo de anotaciones

El número mínimo de documentos de entrada y anotaciones necesarios para entrenar un modelo depende del tipo de anotaciones.

Anotaciones en PDF

Para crear un modelo para analizar archivos de imagen, archivos PDF o documentos de Word, entrene a su reconocedor con anotaciones en PDF. Para las anotaciones en PDF, proporcione al menos 250 documentos de entrada y al menos 100 anotaciones por entidad.

Si proporciona un conjunto de datos de prueba, los datos de prueba deben incluir al menos una anotación para cada uno de los tipos de entidad especificados en la solicitud de creación.

Anotaciones de texto sin formato

Para crear un modelo para analizar documentos de texto, puede entrenar a su reconocedor mediante anotaciones de texto sin formato.

Para las anotaciones en texto sin formato, proporcione al menos 3 documentos de entrada anotados y al menos 25 anotaciones por entidad. Si proporciona menos de 50 anotaciones en total, Amazon Comprehend reserva más del 10 % de los documentos de entrada para probar el modelo (a menos que haya proporcionado un conjunto de datos de prueba en la solicitud del entrenamiento). No olvide que el tamaño mínimo del corpus del documento es de 5 KB.

Si la entrada contiene solo unos pocos documentos de entrenamiento, es posible que se produzca un error porque los datos de entrada de entrenamiento contienen muy pocos documentos que mencionen una de las entidades. Vuelve a enviar el trabajo con documentos adicionales que mencionen la entidad.

Si proporciona un conjunto de datos de prueba, los datos de prueba deben incluir al menos una anotación para cada uno de los tipos de entidad especificados en la solicitud de creación.

Para ver un ejemplo de cómo comparar un modelo con un conjunto de datos pequeño, consulte Amazon Comprehend anuncia límites de anotación más bajos para el reconocimiento de entidades personalizado en el sitio del blog de AWS.

Prácticas recomendadas de anotación

Hay varios aspectos que deben tenerse en cuenta para obtener el mejor resultado al utilizar anotaciones, entre los que se incluyen los siguientes:

  • Anote sus datos con cuidado y verifique que anota cada mención de la entidad. Las anotaciones imprecisas pueden dar lugar a resultados deficientes.

  • Los datos de entrada no deben contener duplicados, como un duplicado de un PDF que vaya a anotar. La presencia de una muestra duplicada puede contaminar el conjunto de prueba y afectar negativamente al proceso de entrenamiento, las métricas del modelo y el comportamiento del modelo.

  • Asegúrese de que todos sus documentos estén anotados y de que los documentos sin anotaciones se deban a la falta de entidades legítimas y no a una negligencia. Por ejemplo, si tiene un documento que diga «J Doe ha sido ingeniero durante 14 años», también debe incluir una anotación para «J Doe» y «John Doe». Si no lo hace, el modelo se confunde y puede provocar que el modelo no reconozca a «J Doe» como INGENIERO. Esto debe ser coherente en el mismo documento y en todos los documentos.

  • En general, más anotaciones conducen a mejores resultados.

  • Puede entrenar un modelo con el número mínimo de documentos y anotaciones, pero la adición de datos suele mejorar el modelo. Recomendamos aumentar el volumen de datos anotados en un 10 % para aumentar la precisión del modelo. Puede realizar la inferencia en un conjunto de datos de prueba que permanece sin cambios y se puede probar con diferentes versiones del modelo. A continuación, puede comparar las métricas de las sucesivas versiones del modelo.

  • Proporcione documentos que se parezcan lo más posible a los casos de uso reales. Deben evitarse los datos sintetizados con patrones repetitivos. Los datos de entrada deben ser lo más diversos posible para evitar el sobreajuste y ayudar al modelo subyacente a generalizar mejor a partir de ejemplos reales.

  • Es importante que los documentos sean diversos en cuanto al número de palabras. Por ejemplo, si todos los documentos de los datos de entrenamiento son cortos, el modelo resultante puede tener dificultades para predecir las entidades de los documentos más largos.

  • Intente ofrecer para el entrenamiento la misma distribución de datos que la que espera utilizar al detectar las entidades personalizadas (tiempo de inferencia). Por ejemplo, en el momento de la inferencia, si piensa enviarnos documentos que no contienen entidades, también deberían formar parte de su conjunto de documentos de entrenamiento.

Para obtener sugerencias adicionales, consulte Cómo mejorar el rendimiento de los reconocedores de entidades personalizados.