Objetos de resposta de detecção de texto e análise de - Amazon Textract

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Objetos de resposta de detecção de texto e análise de

Quando o Amazon Textract processa um documento, ele cria uma lista deBlockobjetos para o texto detectado ou analisado. Cada bloco contém informações sobre um item detectado, onde ele está localizado e a confiança que o Amazon Textract tem na precisão do processamento.

Um documento é composto pelos seguintes tipos deBlockobjects.

O conteúdo de um bloco depende da operação que você chama. Se você chamar uma das operações de detecção de texto, as páginas, as linhas e as palavras do texto detectado serão retornadas. Para obter mais informações, consulte Detectar texto. Se você chamar uma das operações de análise de documentos, informações sobre páginas detectadas, pares de valores-chave, tabelas, elementos de seleção e texto serão retornadas. Para obter mais informações, consulte Analisar documentos.

AlgunsBlockOs campos de objeto são comuns a ambos os tipos de processamento. Por exemplo, cada bloco tem um identificador exclusivo.

Para obter exemplos que mostram como usarBlockobjetos, consulteTutoriais.

Layout do documento

Amazon Textract retorna uma representação de um documento como uma lista de diferentes tipos deBlockobjetos que estão vinculados em um relacionamento pai-filho ou em um par de valores-chave. Metadados que fornecem o número de páginas em um documento também são retornados. A seguir está a JSON para um típicoBlockobjeto do tipoPAGE.

{ "Blocks": [ { "Geometry": { "BoundingBox": { "Width": 1.0, "Top": 0.0, "Left": 0.0, "Height": 1.0 }, "Polygon": [ { "Y": 0.0, "X": 0.0 }, { "Y": 0.0, "X": 1.0 }, { "Y": 1.0, "X": 1.0 }, { "Y": 1.0, "X": 0.0 } ] }, "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", "82aedd57-187f-43dd-9eb1-4f312ca30042", "52be1777-53f7-42f6-a7cf-6d09bdc15a30", "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" }..... ], "DocumentMetadata": { "Pages": 1 } }

Um documento é feito de um ou maisPAGEBlocos. Cada página contém uma lista de blocos filhos para os itens primários detectados na página, como linhas de texto e tabelas. Para obter mais informações, consulte Páginas.

Você pode determinar o tipo de umBlockobjeto inspecionando oBlockTypecampo.

UMABlockObject contém uma lista de relacionadosBlockObjetos noRelationshipscampo, que é uma matriz deRelationshipobjects. UMARelationshipsarray é do tipo CHILD ou do tipo VALUE. Uma matriz do tipo CHILD é usada para listar os itens que são filhos do bloco atual. Por exemplo, se o bloco atual for do tipo LINE,Relationshipscontém uma lista de IDs para os blocos WORD que compõem a linha de texto. Uma matriz do tipo VALUE é usada para conter pares chave-valor. Você pode determinar o tipo de relacionamento inspecionando oTypecampo doRelationshipobjeto.

Blocos filhos não têm informações sobre seus objetos Bloco pai.

Para exemplos que mostramBlockInformações, consulteProcessando documentos com operações síncronas.

Confiança

As operações do Amazon Textract retornam a confiança percentual que o Amazon Textract tem sobre a precisão do item detectado. Para obter a confiança, use oConfidencecampo doBlockobjeto. Um valor mais alto indica uma confiança mais alta. Dependendo do cenário, detecções com baixa confiança podem precisar de confirmação visual por um humano.

Geometria

As operações Amazon Textract, com exceção da análise de identidade, retornam informações de localização sobre a localização dos itens detectados em uma página de documento. Para obter a localização, use oGeometrycampo doBlockobjeto. Para obter mais informações, consulteLocalização do item em uma página de documento