Prácticas recomendadas para Amazon Textract - Amazon Textract

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prácticas recomendadas para Amazon Textract

Amazon Textract utiliza el aprendizaje automático para leer documentos como lo haría una persona. Extrae texto, tablas y formularios de documentos. Utilice las siguientes prácticas recomendadas para obtener los mejores resultados de sus documentos.

Proporcionar un documento de entrada óptimo

A continuación se muestra una lista de algunas formas de optimizar los documentos de entrada para obtener mejores resultados.

  • Asegúrese de que el texto del documento esté en un idioma compatible con Amazon Textract Texact. Actualmente, Amazon Textract admite inglés, español, español, español, italiano, francés y portugués.

  • Proporcione una imagen de alta calidad, idealmente al menos 150 PPP.

  • Si el documento ya está en uno de los formatos de archivo compatibles con Amazon Textract Texact (PDF, TIFF, JPEG y PNG), no convierta ni reduzca la muestra del documento antes de cargarlo en Amazon Textract.

Para obtener los mejores resultados al extraer texto de tablas de documentos, asegúrese de que:

  • Las tablas del documento están separadas visualmente de los elementos circundantes de la página. Por ejemplo, la tabla no se superpone sobre una imagen o un patrón complejo.

  • El texto de la tabla está en posición vertical. Por ejemplo, el texto no se gira en relación con otro texto de la página.

Al extraer texto de tablas, es posible que veas resultados incoherentes cuando:

  • Celdas de tabla combinadas que abarcan varias columnas.

  • Tablas con celdas, filas o columnas diferentes de otras partes de la misma tabla.

Recomendamos utilizardetección de textocomo solución provisional.

Usar puntuación de confianza

Debe tener en cuenta las puntuaciones de confianza devueltas por las operaciones de la Amazon Textract Texact y la sensibilidad de su caso de uso. Una puntuación de confianza es un número entre 0 y 100 que indica la probabilidad de que una predicción determinada sea correcta. Le ayuda a tomar decisiones informadas sobre cómo utiliza los resultados.

En aplicaciones sensibles a errores de detección (falsos positivos), aplique un umbral mínimo de puntuación de confianza. La aplicación debe descartar los resultados por debajo de ese umbral o indicar situaciones que requieren un mayor nivel de escrutinio humano.

El umbral óptimo depende de la aplicación. Para fines de archivo, como documentar notas escritas a mano, puede ser de hasta un 50%. Los procesos empresariales que implican decisiones financieras pueden requerir umbrales del 90% o más.

Considere utilizar revisión humana

Considere también incorporar la revisión humana en sus flujos de trabajo. Esto es especialmente importante para aplicaciones sensibles, como los procesos empresariales que implican decisiones financieras.