Entradas para análise personalizada em tempo real - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Entradas para análise personalizada em tempo real

A análise em tempo real usando modelos personalizados usa um único documento como entrada. Os tópicos a seguir descrevem os tipos de documentos de entrada que você pode usar.

Documentos de texto simples

Forneça os documentos de entrada como texto no formato UTF-8.

Documentos semiestruturados

Os documentos semiestruturados incluem documentos PDF nativos e documentos do Word.

Por padrão, a análise personalizada em tempo real usa o analisador do Amazon Comprehend para extrair o texto de arquivos Word e arquivos PDF digitais. Para arquivos em PDF, você pode substituir esse padrão e usar o Amazon Textract para extrair o texto. Consulte Configurando opções de extração de texto.

Arquivos de imagem e arquivos PDF digitalizados

Os tipos de imagem compatíveis incluem JPEG, PNG e TIFF.

Por padrão, o reconhecimento personalizado de identidades usa a operação de API DetectDocumentText do Amazon Textract para extrair o texto de arquivos de imagem e arquivos PDF digitalizados. Como alternativa, você pode substituir esse padrão para usar a operação de API AnalyzeDocument. Consulte Configurando opções de extração de texto.

Saída do Amazon Textract

Você pode fornecer a saída JSON da API DetectDocumentText ou da API AnalyzeDocument do Amazon Textract como entrada para as operações de API em tempo real para classificação personalizada e reconhecimento personalizado de entidades. O Amazon Comprehend oferece suporte a esse tipo de entrada para as operações de API em tempo real, mas não para o console.

Tamanhos máximos de documentos para análise em tempo real

Para todos os tipos de documentos de entrada, o máximo do arquivo de entrada é de uma página, com no máximo 10.000 caracteres.

A tabela a seguir mostra os tamanhos máximos de arquivo dos documentos de entrada.

Tipo de arquivo Tamanho máximo (API) Tamanho máximo (console)
Documentos de texto em UTF-8 10 KB 10 KB
Documentos em PDF 10 MB 5 MB
Documentos do Word 10 MB 1 MB
Arquivos de imagem 10 MB 5 MB
Arquivos de saída do Textract 1 MB n/a

Erros em documentos semiestruturados

A operação ClassifyDocumentou DetectEntitiesAPI pode encontrar erros no nível do documento ou da página ao extrair texto de um documento semiestruturado ou de um arquivo de imagem.

Erros no nível da página

Se a operação da DetectEntitiesAPI ClassifyDocumentou encontrar erros ao processar uma página no documento de entrada, a resposta da API incluirá uma entrada na lista de erros para cada erro.

O ErrorCode na lista de erros contém um dos seguintes valores:

  • TEXTRACT_BAD_PAGE – o Amazon Textract não consegue ler a página. Para obter mais informações sobre limites de página no Amazon Textract, consulte Cotas de página no Amazon Textract.

  • TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED – o número de solicitações excedeu seu limite de throughput. Para obter mais informações sobre cotas de throughput no Amazon Textract, consulte Cotas padrão no Amazon Textract.

  • PAGE_CHARACTERS_EXCEEDED – muitos caracteres de texto na página (máximo de 10.000 caracteres).

  • PAGE_SIZE_EXCEEDED – o tamanho máximo da página é 10 MB.

  • INTERNAL_SERVER_ERROR – a solicitação encontrou um problema de serviço. Tente a solicitação da API novamente.

Erros no nível de documento

Se a operação ClassifyDocumentou DetectEntitiesAPI detectar um erro em nível de documento em seu documento de entrada, a API retornará uma InvalidRequestException resposta de erro.

Na resposta de erro, o valor no campo Reason irá conter o valor INVALID_DOCUMENT.

O campo Detail contém um dos seguintes valores:

  • DOCUMENT_SIZE_EXCEEDED – o tamanho do documento é muito grande. Verifique o tamanho do seu arquivo e reenvie a solicitação.

  • UNSUPPORTED_DOC_TYPE – o tipo de documento não é compatível. Verifique o tipo do seu arquivo e reenvie a solicitação.

  • PAGE_LIMIT_EXCEEDED – muitas páginas no documento. Verifique o número de páginas do seu arquivo e reenvie a solicitação.

  • TEXTRACT_ACCESS_DENIED_EXCEPTION – acesso negado ao Amazon Textract. Verifique se sua conta tem permissão para usar as operações do Amazon Textract DetectDocumentTexte AnalyzeDocumentda API e reenvie a solicitação.