Block - Amazon Textract

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Block

UMABlockrepresenta itens que são reconhecidos em um documento dentro de um grupo de pixels próximos um do outro. As informações retornadas em umBlockO objeto depende do tipo de operação. Na detecção de texto para documentos (por exemploDetectDocumentText), você obtém informações sobre as palavras e linhas de texto detectadas. Em análise de texto (por exemploAnalyzeDocument), você também pode obter informações sobre os campos, tabelas e elementos de seleção detectados no documento.

Uma matriz deBlockobjetos são retornados por operações síncronas e assíncronas. Em operações síncronas, comoDetectDocumentText, a matriz deBlockobjetos é todo o conjunto de resultados. Em operações assíncronas, comoGetDocumentAnalysis, o array é retornado por uma ou mais respostas.

Para obter mais informações, consulteComo funciona o Amazon Textract.

Índice

BlockType

O tipo de item de texto reconhecido. Em operações para detecção de texto, os seguintes tipos são retornados:

  • PÁGINA- Contém uma lista da LINHABlockobjetos detectados em uma página de documento.

  • PALAVRA- Uma palavra detectada em uma página de documento. Uma palavra é um ou mais caracteres latinos ISO básicos não separados por espaços.

  • LINHA- Uma sequência de palavras contíguas delimitadas por tabulação que são detectadas em uma página de documento.

Em operações de análise de texto, os seguintes tipos são retornados:

  • PÁGINA- Contém uma lista de criançasBlockobjetos detectados em uma página de documento.

  • KEY_VALUE_SET- Armazena a CHAVE e O VALORBlockobjetos para texto vinculado detectado em uma página de documento. Usar aEntityTypecampo para determinar se um objeto KEY_VALUE_SET é uma KEYBlockobjeto ou VALUEBlockobjeto.

  • PALAVRA- Uma palavra detectada em uma página de documento. Uma palavra é um ou mais caracteres latinos ISO básicos não separados por espaços.

  • LINHA- Uma sequência de palavras contíguas delimitadas por tabulação que são detectadas em uma página de documento.

  • MESA- Uma tabela detectada em uma página de documento. Uma tabela é uma informação baseada em grade com duas ou mais linhas ou colunas, com uma extensão de célula de uma linha e uma coluna cada.

  • CÉLULA- Uma célula dentro de uma tabela detectada. A célula é o pai do bloco que contém o texto na célula.

  • SELECTION_ELEMENT- Um elemento de seleção, como um botão de opção (botão de opção) ou uma caixa de seleção detectada em uma página de documento. Use o valor deSelectionStatuspara determinar o status do elemento de seleção.

Type: String

Valores válidos: KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT

Obrigatório: Não

ColumnIndex

A coluna na qual uma célula de tabela aparece. A primeira posição da coluna é 1.ColumnIndexnão é retornado porDetectDocumentTexteGetDocumentTextDetection.

Type: Inteiro

Intervalo válido: Valor mínimo de 0.

Obrigatório: Não

ColumnSpan

O número de colunas que uma célula de tabela abrange. Atualmente, esse valor é sempre 1, mesmo que o número de colunas estendidas seja maior que 1.ColumnSpannão é retornado porDetectDocumentTexteGetDocumentTextDetection.

Type: Inteiro

Intervalo válido: Valor mínimo de 0.

Obrigatório: Não

Confidence

A pontuação de confiança que o Amazon Textract tem na precisão do texto reconhecido e na precisão dos pontos de geometria em torno do texto reconhecido.

Type: Float

Intervalo válido: Valor mínimo de 0. Valor máximo de 100.

Obrigatório: Não

EntityTypes

O tipo de entidade. Pode ser retornado o seguinte:

  • CHAVE- Um identificador para um campo no documento.

  • VALOR- O texto do campo.

EntityTypesnão é retornado porDetectDocumentTexteGetDocumentTextDetection.

Type: Matriz de strings

Valores válidos: KEY | VALUE

Obrigatório: Não

Geometry

A localização do texto reconhecido na imagem. Inclui uma caixa delimitadora grossa alinhada ao eixo que envolve o texto e um polígono de grão mais fino para obter informações espaciais mais precisas.

Tipo: objeto Geometry

Obrigatório: Não

Id

O identificador para o texto reconhecido. O identificador é exclusivo apenas para uma única operação.

Type: String

Padrão: .*\S.*

Obrigatório: Não

Page

A página na qual um bloco foi detectado.Pageé retornado por operações assíncronas. Valores de página maiores que 1 são retornados somente para documentos de várias páginas que estão no formato PDF ou TIFF. Uma imagem digitalizada (JPEG/PNG), mesmo que contenha várias páginas de documento, é considerada um documento de página única. O valor dePageé sempre 1. Operações síncronas não retornamPageporque cada documento de entrada é considerado um documento de página única.

Type: Inteiro

Intervalo válido: Valor mínimo de 0.

Obrigatório: Não

Relationships

Uma lista de blocos filhos do bloco atual. Por exemplo, um objeto LINE tem blocos filhos para cada bloco WORD que faz parte da linha de texto. Não há objetos Relacionamento na lista para relacionamentos que não existem, como quando o bloco atual não tem blocos filhos. O tamanho da lista pode ser o seguinte:

  • 0 - O bloco não tem blocos filhos.

  • 1 - O bloco tem blocos filhos.

Type: Matriz deRelationshipobjetos

Obrigatório: Não

RowIndex

A linha na qual uma célula de tabela está localizada. A posição da primeira linha é 1.RowIndexnão é retornado porDetectDocumentTexteGetDocumentTextDetection.

Type: Inteiro

Intervalo válido: Valor mínimo de 0.

Obrigatório: Não

RowSpan

O número de linhas que uma célula de tabela abrange. Atualmente, esse valor é sempre 1, mesmo que o número de linhas estendidas seja maior que 1.RowSpannão é retornado porDetectDocumentTexteGetDocumentTextDetection.

Type: Inteiro

Intervalo válido: Valor mínimo de 0.

Obrigatório: Não

SelectionStatus

O status de seleção de um elemento de seleção, como um botão de opção ou caixa de seleção.

Type: String

Valores válidos: SELECTED | NOT_SELECTED

Obrigatório: Não

Text

A palavra ou linha de texto reconhecida pelo Amazon Textract.

Type: String

Obrigatório: Não

TextType

O tipo de texto que o Amazon Textract detectou. Pode verificar se há texto manuscrito e texto impresso.

Type: String

Valores válidos: HANDWRITING | PRINTED

Obrigatório: Não

Consulte também

Para obter mais informações sobre como usar essa API em um dos AWS SDKs específicos de linguagem, consulte o seguinte: