Tablas - Amazon Textract

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Tablas

Amazon Texact puede extraer tablas y celdas de una tabla. Por ejemplo, cuando se detecta la siguiente tabla en un formulario, Amazon Textract Texact detecta una tabla con cuatro celdas.

Nombre Dirección

Ana Carolina

Cualquier Ciudad 123

Las tablas detectadas se devuelven comoBlockobjetos en las respuestas deAnalyzeDocumentyGetDocumentAnalysis. Puede utilizar elFeatureTypesparámetro de entrada para recuperar información sobre pares clave-valor, tablas o ambos. Solo para tablas, utilice el valorTABLES. Para ver un ejemplo, consulte Exportación de tablas a un archivo CSV. Para obtener información general sobre cómo un documento está representado porBlockobjetos, consulteObjetos de respuesta de detección de texto y análisis de documentos.

En el siguiente diagrama se muestra cómo una sola celda de una tabla está representada por:Blockobjects.

Una celda contieneWORDbloques para palabras detectadas, ySELECTION_ELEMENTbloques para elementos de selección, tales como casillas de verificación.

El siguiente es JSON parcial para la tabla anterior, que tiene cuatro celdas.

El objeto PAGE Block tiene una lista de ID de bloque CHILD para el bloque TABLE y cada LÍNEA de texto detectada.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "f2a4ad7b-f21d-4966-b548-c859b84f66a4", // Line - Name "4dce3516-ffeb-45e0-92a2-60770e9cb744", // Line - Address "ee506578-768f-4696-8f4b-e4917e429f50", // Line - Ana Carolina "33fc7223-411b-4399-8a90-ccd3c5a2c196", // Line - 123 Any Town "3f9665be-379d-4ae7-be44-d02f32b049c2" // Table ] } ], "BlockType": "PAGE", "Id": "78c3ce84-ae70-418e-add7-27058418adf6" },

El bloque TABLE incluye una lista de identificadores secundarios de las celdas de la tabla. Un bloque TABLE también incluye información de geometría para la ubicación de la tabla del documento. El siguiente JSON muestra que la tabla tiene cuatro celdas, que se enumeran en elIdsmatriz.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "505e9581-0d1c-42fb-a214-6ff736822e8c", "6fca44d4-d3d3-46ab-b22f-7fca1fbaaf02", "9778bd78-f3fe-4ae1-9b78-e6d29b89e5e9", "55404b05-ae12-4159-9003-92b7c129532e" ] } ], "BlockType": "TABLE", "Confidence": 92.5705337524414, "Id": "3f9665be-379d-4ae7-be44-d02f32b049c2" },

El tipo de bloque de las celdas de la tabla es CELL. LaBlockobjeto de cada celda incluye información sobre la ubicación de la celda en comparación con otras celdas de la tabla. También incluye información de geometría para la ubicación de la celda del documento. En el modelo de ejemplo anterior,505e9581-0d1c-42fb-a214-6ff736822e8ces el ID secundario de la celda que contiene la palabraNombre. El ejemplo siguiente es la información de la celda.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "e9108c8e-0167-4482-989e-8b6cd3c3653e" ] } ], "Confidence": 100.0, "RowSpan": 1, "RowIndex": 1, "ColumnIndex": 1, "ColumnSpan": 1, "BlockType": "CELL", "Id": "505e9581-0d1c-42fb-a214-6ff736822e8c" },

Cada celda tiene una ubicación en una tabla, y la primera celda es 1,1. En el ejemplo anterior, la celda con el valorNombrese encuentra en la fila 1, columna 1. La celda con el valorCualquier Ciudad 123se encuentra en la fila 2, columna 2. Un objeto de bloque de celdas contiene esta información en elRowIndexyColumnIndex. La lista secundaria contiene los ID de los objetos WORD Block que contienen el texto que se encuentra dentro de la celda. Las palabras de la lista están en el orden en que se detectan, desde la parte superior izquierda de la celda hasta la parte inferior derecha de la celda. En el ejemplo anterior, la celda tiene un ID secundario con el valor e9108c8e-0167-4482-989e-8b6cd3c3653e. El siguiente resultado es para el bloque WORD con el valor de ID e9108c8e-0167-4482-989e-8b6cd3c3653e:

"Geometry": {...}, "Text": "Name", "TextType": "Printed", "BlockType": "WORD", "Confidence": 99.81139373779297, "Id": "e9108c8e-0167-4482-989e-8b6cd3c3653e" },