Análisis de documentos - Amazon Textract

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Análisis de documentos

Amazon Textract analiza documentos y formularios en busca de relaciones entre el texto detectado. Las operaciones de análisis de Amazon Textract devuelven 3 categorías de extracción de documentos: texto, formularios y tablas. El análisis de facturas y recibos se gestiona mediante un proceso diferente; para obtener más información, consulteAnálisis de facturas y recibos.

Extracción de texto

Texto sin procesar extraído de un documento. Para obtener más información, consulteLíneas y palabras de texto.

Extraction de formularios

Los datos del formulario están vinculados a elementos de texto extraídos de un documento. Amazon Textract representa los datos de formulario como pares clave-valor. En el siguiente ejemplo, una de las líneas de texto detectadas por Amazon Textract esName: Jane Doe. Amazon Textract Texact también identifica una clave (Name:) y un valor (Jane Doe). Para obtener más información, consulteDatos de formulario (pares clave-valor).

Name: Jane Doe

Address: 123 Any Street, Anytown, Estados Unidos

Fecha de nacimiento: 12-26-09-1980

Los pares clave-valor también se utilizan para representar casillas de verificación o botones de opción (botones de opción) que se extraen de los formularios.

male:

Para obtener más información, consulteElementos de selección.

Extraction de tablas

Amazon Texact puede extraer tablas, celdas de tabla y elementos de celdas de tabla y puede programarse para devolver los resultados en un archivo JSON, .csv o un archivo.txt.

Nombre Dirección

Ana Carolina

Cualquier Ciudad 123

Para obtener más información, consulte Tablas. Los elementos de selección también se pueden extraer de las tablas. Para obtener más información, consulteElementos de selección.

Para los artículos analizados, Amazon Textract devuelve lo siguiente en variosBlockobjects:

  • Las líneas y palabras del texto detectado

  • El contenido de los elementos detectados

  • Relación entre los elementos detectados

  • Página en la que se ha detectado el elemento

  • Ubicación del elemento en la página del documento

Puede utilizar operaciones síncronas o asíncronas para analizar el texto de un documento. Para analizar el texto de forma sincrónica, utilice elAnalyzeDocumenty pasar un documento como entrada.AnalyzeDocumentdevuelve todo el conjunto de resultados. Para obtener más información, consulte Análisis del texto del documento con Amazon Textract.

Para detectar texto de forma asíncrona, utiliceStartDocumentAnalysispara empezar a procesar. Para obtener los resultados, llameGetDocumentAnalysis. Los resultados se devuelven en una o más respuestas deGetDocumentAnalysis. Para obtener más información y un ejemplo, consulte Detección o análisis de texto en un documento de varias páginas.

Para especificar qué tipo de análisis se va a realizar, puede utilizar elFeatureTypesparámetro de entrada de lista. Agregue TABLES a la lista para devolver información sobre las tablas detectadas en el documento de entrada, por ejemplo, celdas de tabla, texto de celda y elementos de selección de celdas. Agregue FORMULARIOS para devolver relaciones de palabras, como pares clave-valor y elementos de selección. Para realizar ambos tipos de análisis, agregue TABLAS y FORMS aFeatureTypes.

Todas las líneas y palabras detectadas en el documento se incluyen en la respuesta (incluido el texto no relacionado con el valor deFeatureTypes).