AnalyzeDocument - Amazon Textract

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AnalyzeDocument

Analisa um documento de entrada para os relacionamentos entre itens detectados em um documento

Os tipos de informações retornadas são os seguintes:

  • Dados do formulário (pares de chave-valor). As informações relacionadas são retornadas em doisBlockobjetos, cada um dos tiposKEY_VALUE_SET: uma CHAVEBlockobjeto e um VALORBlockobjeto. Por exemplo,Name (Nome): Ana Silva Carolinacontém uma chave e um valor. Name (Nome):é a chave. Ana Silva CarolinaÉ o valor de.

  • Dados de células de tabela e tabela. UMA TABELABlockobjeto contém informações sobre uma tabela detectada. UMA CÉLULABlockobjeto é retornado para cada célula em uma tabela.

  • Linhas e palavras de texto. UMA LINHABlockO objeto contém um ou mais WORDBlockobjetos. Todas as linhas e palavras detectadas no documento são retornadas (incluindo texto que não tem relação com o valor deFeatureTypes).

Elementos de seleção, como caixas de seleção e botões de opção (botões de opção), podem ser detectados em dados de formulário e em tabelas. UM SELECTION_ELEMENTBlockobjeto contém informações sobre um elemento de seleção, incluindo o status da seleção.

Você pode escolher qual tipo de análise executar especificando oFeatureTypesLista.

A saída é retornada em uma lista deBlockobjetos.

AnalyzeDocumentÉ uma operação síncrona. Para analisar documentos de forma assíncrona, useStartDocumentAnalysis.

Para obter mais informações, consulteAnálise de texto de documentos.

Sintaxe da solicitação

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "FeatureTypes": [ "string" ], "HumanLoopConfig": { "DataAttributes": { "ContentClassifiers": [ "string" ] }, "FlowDefinitionArn": "string", "HumanLoopName": "string" } }

Parâmetros de solicitação

A solicitação aceita os dados a seguir no formato JSON.

Document

O documento de entrada como bytes codificados em base64 ou um objeto do Amazon S3. Se você usar a AWS CLI para chamar as operações do Amazon Textract, não poderá passar bytes de imagem. O documento deve ser uma imagem no formato JPEG, PNG, PDF ou TIFF.

Se você estiver usando um AWS SDK para chamar o Amazon Textract, talvez não seja necessário codificar bytes de imagem que são passados usando oBytescampo.

Tipo: objeto Document

: obrigatório Sim

FeatureTypes

Uma lista dos tipos de análise a serem executadas. Adicione TABLES à lista para retornar informações sobre as tabelas detectadas no documento de entrada. Adicione FORMS para retornar dados de formulário detectados. Para executar os dois tipos de análise, adicione TABLES e FORMS aoFeatureTypes. Todas as linhas e palavras detectadas no documento estão incluídas na resposta (incluindo texto que não está relacionado ao valor deFeatureTypes).

Type: Matriz de strings

Valores válidos: TABLES | FORMS

: obrigatório Sim

HumanLoopConfig

Define a configuração para o humano no fluxo de trabalho de loop para analisar documentos.

Tipo: objeto HumanLoopConfig

: obrigatório Não

Sintaxe da resposta

{ "AnalyzeDocumentModelVersion": "string", "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DocumentMetadata": { "Pages": number }, "HumanLoopActivationOutput": { "HumanLoopActivationConditionsEvaluationResults": "string", "HumanLoopActivationReasons": [ "string" ], "HumanLoopArn": "string" } }

Elementos de resposta

Se a ação for bem-sucedida, o serviço reenviará uma resposta HTTP 200.

Os seguintes dados são retornados no formato JSON pelo serviço.

AnalyzeDocumentModelVersion

A versão do modelo usado para analisar o documento.

Type: String

Blocks

Os itens que são detectados e analisados porAnalyzeDocument.

Type: Matriz deBlockobjetos

DocumentMetadata

Metadados sobre o documento analisado. Um exemplo é o número de páginas.

Tipo: objeto DocumentMetadata

HumanLoopActivationOutput

Mostra os resultados do humano na avaliação de loop.

Tipo: objeto HumanLoopActivationOutput

Erros

AccessDeniedException

Você não está autorizado a executar a ação. Use o nome de recurso da Amazon (ARN) de um usuário autorizado ou a função do IAM para executar a operação.

Código de status HTTP: 400

BadDocumentException

O Amazon Textract não consegue ler o documento. Para obter mais informações sobre os limites de documentos no Amazon Textract, consulteLimites rígidos no Amazon Textract.

Código de status HTTP: 400

DocumentTooLargeException

O documento não pode ser processado porque é muito grande. O tamanho máximo do documento para operações síncronas 10 MB. O tamanho máximo do documento para operações assíncronas é de 500 MB para arquivos PDF.

Código de status HTTP: 400

HumanLoopQuotaExceededException

Indica que você excedeu o número máximo de humanos ativos nos fluxos de trabalho de loop disponíveis

Código de status HTTP: 400

InternalServerError

O Amazon Textract teve um problema de serviço. Tente fazer a chamada novamente.

Código de status HTTP: 500

InvalidParameterException

Um parâmetro de entrada violou uma restrição. Por exemplo, em operações síncronas, umInvalidParameterExceptionexceção ocorre quando nenhum dosS3ObjectouBytesvalores são fornecidos naDocumentParâmetro de solicitação. Valide seu parâmetro antes de chamar a operação de API novamente.

Código de status HTTP: 400

InvalidS3ObjectException

O Amazon Textract não pode acessar o objeto do S3 especificado na solicitação. para obter mais informações,Configuração de acesso ao Amazon S3Para obter informações sobre a solução de problemas, consulteSolução de problemas do Amazon S3

Código de status HTTP: 400

ProvisionedThroughputExceededException

O número de solicitações excedeu o limite da taxa de transferência. Se precisar aumentar esse limite, entre em contato com o Amazon Textract.

Código de status HTTP: 400

ThrottlingException

O Amazon Textract está temporariamente indisponível para processar a solicitação. Tente fazer a chamada novamente.

Código de status HTTP: 500

UnsupportedDocumentException

O formato do documento de entrada não é compatível. Os documentos para operações podem estar no formato PNG, JPEG, PDF ou TIFF.

Código de status HTTP: 400

Consulte também

Para obter mais informações sobre como usar essa API em um dos AWS SDKs específicos de linguagem, consulte o seguinte: