Tabelas - Amazon Textract

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Tabelas

Amazon Textract pode extrair tabelas e as células em uma tabela. Por exemplo, quando a tabela a seguir é detectada em um formulário, o Amazon Textract detecta uma tabela com quatro células.

Name (Nome) Endereço

Ana Carolina

123 Any Town

As tabelas detectadas são retornadas comoBlockobjetos nas respostas deAnalyzeDocumenteGetDocumentAnalysis. Você pode usar oFeatureTypesparâmetro de entrada para recuperar informações sobre pares de valores-chave, tabelas ou ambos. Somente para tabelas, use o valorTABLES. Para ver um exemplo, consulte Exportando tabelas para um arquivo CSV. Para obter informações gerais sobre como um documento é representado porBlockobjetos, consulteObjetos de resposta de detecção de texto e análise de.

O diagrama a seguir mostra como uma única célula em uma tabela é representada porBlockobjects.

Uma célula contémWORDblocos para palavras detectadas eSELECTION_ELEMENTblocos para elementos de seleção, como caixas de seleção.

O seguinte é JSON parcial para a tabela anterior, que tem quatro células.

O objeto PAGE Block tem uma lista de IDs de bloco FILHO para o bloco TABLE e cada LINHA de texto detectada.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "f2a4ad7b-f21d-4966-b548-c859b84f66a4", // Line - Name "4dce3516-ffeb-45e0-92a2-60770e9cb744", // Line - Address "ee506578-768f-4696-8f4b-e4917e429f50", // Line - Ana Carolina "33fc7223-411b-4399-8a90-ccd3c5a2c196", // Line - 123 Any Town "3f9665be-379d-4ae7-be44-d02f32b049c2" // Table ] } ], "BlockType": "PAGE", "Id": "78c3ce84-ae70-418e-add7-27058418adf6" },

O bloco TABLE inclui uma lista de IDs filhos para as células dentro da tabela. Um bloco TABLE também inclui informações de geometria para a localização da tabela no documento. O JSON a seguir mostra que a tabela tem quatro células, que estão listadas naIdsmatriz.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "505e9581-0d1c-42fb-a214-6ff736822e8c", "6fca44d4-d3d3-46ab-b22f-7fca1fbaaf02", "9778bd78-f3fe-4ae1-9b78-e6d29b89e5e9", "55404b05-ae12-4159-9003-92b7c129532e" ] } ], "BlockType": "TABLE", "Confidence": 92.5705337524414, "Id": "3f9665be-379d-4ae7-be44-d02f32b049c2" },

O tipo de bloco para as células da tabela é CELL. OBlockobjeto para cada célula inclui informações sobre a localização da célula em comparação com outras células na tabela. Ele também inclui informações de geometria para a localização da célula no documento. No exemplo anterior,505e9581-0d1c-42fb-a214-6ff736822e8cé o ID filho da célula que contém a palavraName (Nome). O exemplo a seguir são as informações para a célula.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "e9108c8e-0167-4482-989e-8b6cd3c3653e" ] } ], "Confidence": 100.0, "RowSpan": 1, "RowIndex": 1, "ColumnIndex": 1, "ColumnSpan": 1, "BlockType": "CELL", "Id": "505e9581-0d1c-42fb-a214-6ff736822e8c" },

Cada célula tem uma localização em uma tabela, com a primeira célula sendo 1,1. No exemplo anterior, a célula com o valorName (Nome)está na linha 1, coluna 1. A célula com o valor123 Any Townestá na linha 2, coluna 2. Um objeto de bloco de células contém essas informações naRowIndexeColumnIndexcampos. A lista filho contém os IDs dos objetos do bloco WORD que contêm o texto que está dentro da célula. As palavras na lista estão na ordem em que são detectadas, do canto superior esquerdo da célula para o canto inferior direito da célula. No exemplo anterior, a célula tem um ID filho com o valor e9108c8e-0167-4482-989e-8b6cd3c3653e. A seguinte saída é para o Bloco WORD com o valor ID de e9108c8e-0167-4482-989e-8b6cd3c3653e:

"Geometry": {...}, "Text": "Name", "TextType": "Printed", "BlockType": "WORD", "Confidence": 99.81139373779297, "Id": "e9108c8e-0167-4482-989e-8b6cd3c3653e" },