Documentos de texto simples Documentos semiestruturados Arquivos de imagem e arquivos PDF digitalizados Saída do Amazon Textract Tamanhos máximos de documentos para análise em tempo real Erros em documentos semiestruturados

Entradas para análise personalizada em tempo real

A análise em tempo real usando modelos personalizados usa um único documento como entrada. Os tópicos a seguir descrevem os tipos de documentos de entrada que você pode usar.

Tópicos

Documentos de texto simples
Documentos semiestruturados
Arquivos de imagem e arquivos PDF digitalizados
Saída do Amazon Textract
Tamanhos máximos de documentos para análise em tempo real
Erros em documentos semiestruturados

Documentos de texto simples

Forneça os documentos de entrada como texto no formato UTF-8.

Documentos semiestruturados

Os documentos semiestruturados incluem documentos PDF nativos e documentos do Word.

Por padrão, a análise personalizada em tempo real usa o analisador do Amazon Comprehend para extrair o texto de arquivos Word e arquivos PDF digitais. Para arquivos PDF, você pode substituir esse padrão e usar o Amazon Textract para extrair o texto. Consulte Configurar opções de extração de texto.

Arquivos de imagem e arquivos PDF digitalizados

Os tipos de imagem compatíveis incluem JPEG, PNG e TIFF.

Por padrão, o reconhecimento personalizado de identidades usa a operação de API DetectDocumentText do Amazon Textract para extrair o texto de arquivos de imagem e arquivos PDF digitalizados. Como alternativa, você pode substituir esse padrão para usar a operação de API AnalyzeDocument. Consulte Configurar opções de extração de texto.

Saída do Amazon Textract

Você pode fornecer a saída JSON da API DetectDocumentText ou da API AnalyzeDocument do Amazon Textract como entrada para as operações de API em tempo real para classificação personalizada e reconhecimento personalizado de entidades. O Amazon Comprehend oferece suporte a esse tipo de entrada para as operações de API em tempo real, mas não para o console.

Tamanhos máximos de documentos para análise em tempo real

Para todos os tipos de documentos de entrada, o máximo do arquivo de entrada é de uma página, com no máximo 10.000 caracteres.

A tabela a seguir mostra os tamanhos máximos de arquivo dos documentos de entrada.

Tipo de arquivo	Tamanho máximo (API)	Tamanho máximo (console)
Documentos de texto em UTF-8	10 KB	10 KB
Documentos em PDF	10 MB	5 MB
Documentos do Word	10 MB	1 MB
Arquivos de imagem	10 MB	5 MB
Arquivos de saída do Textract	1 MB	n/a

Erros em documentos semiestruturados

A operação ClassifyDocumentou DetectEntitiesAPI pode encontrar erros no nível do documento ou da página ao extrair texto de um documento semiestruturado ou de um arquivo de imagem.

Erros no nível da página

Se a operação da DetectEntitiesAPI ClassifyDocumentou encontrar erros ao processar uma página no documento de entrada, a resposta da API incluirá uma entrada na lista de erros para cada erro.

O ErrorCode na lista de erros contém um dos seguintes valores:

TEXTRACT_BAD_PAGE: o Amazon Textract não consegue ler a página. Para obter mais informações sobre limites de página no Amazon Textract, consulte Cotas de página no Amazon Textract.
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED: o número de solicitações excedeu seu limite de throughput. Para obter mais informações sobre cotas de throughput no Amazon Textract, consulte Cotas padrão no Amazon Textract.
PAGE_CHARACTERS_EXCEEDED: muitos caracteres de texto na página (máximo de 10.000 caracteres).
PAGE_SIZE_EXCEEDED: o tamanho máximo da página é 10 MB.
INTERNAL_SERVER_ERROR: a solicitação encontrou um problema de serviço. Tente a solicitação da API novamente.

Erros no nível de documento

Se a operação ClassifyDocumentou DetectEntitiesAPI detectar um erro em nível de documento em seu documento de entrada, a API retornará uma InvalidRequestException resposta de erro.

Na resposta de erro, o valor no campo Reason irá conter o valor INVALID_DOCUMENT.

O campo Detail contém um dos seguintes valores:

DOCUMENT_SIZE_EXCEEDED: o tamanho do documento é muito grande. Verifique o tamanho do seu arquivo e reenvie a solicitação.
UNSUPPORTED_DOC_TYPE: o tipo de documento não é compatível. Verifique o tipo do seu arquivo e reenvie a solicitação.
PAGE_LIMIT_EXCEEDED: muitas páginas no documento. Verifique o número de páginas do seu arquivo e reenvie a solicitação.
TEXTRACT_ACCESS_DENIED_EXCEPTION: acesso negado ao Amazon Textract. Verifique se sua conta tem permissão para usar as operações do Amazon Textract DetectDocumentTexte AnalyzeDocumentda API e reenvie a solicitação.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Processamento de documentos

Entradas para análise assíncrona