Configurando opções de extração de texto - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configurando opções de extração de texto

Por padrão, o Amazon Comprehend executa as seguintes ações para extrair texto de um arquivo, com base no tipo de arquivo de entrada:

  • Arquivos do Word – o analisador do Amazon Comprehend extrai o texto.

  • Arquivos em PDF digitais – o analisador do Amazon Comprehend extrai o texto.

  • Arquivos de imagem e em PDF digitalizados – O Amazon Comprehend usa a API do Amazon Textract DetectDocumentText para extrair o texto.

Para arquivos de imagem e arquivos em PDF, você pode usar o parâmetro DocumentReaderConfig para substituir essas ações padrão de extração. Esse parâmetro está disponível quando você usa o console ou a API do Amazon Comprehend para análises personalizadas assíncronas ou em tempo real.

O parâmetro DocumentReaderConfig contém três campos:

  • DocumentReadMode— Defina como SERVICE_DEFAULT para que o Amazon Comprehend execute as ações padrão.

    Define FORCE_DOCUMENT_READ_ACTION para usar o Amazon Textract para analisar arquivos em PDF digitais.

  • DocumentReadAction— Define a API Amazon Textract (DetectDocumentText ou AnalyzeDocument) para usar quando o Amazon Comprehend usa o Amazon Textract para extração de texto.

  • FeatureTypes— Se você DocumentReadActiondefinir o uso da operação de AnalyzeDocument API, poderá adicionar uma ou ambas FeatureTypes (TABELAS, FORMULÁRIOS). Esses recursos fornecem informações adicionais sobre as tabelas e formulários no documento. Para obter mais informações sobre esses recursos, consulte Objetos de resposta da análise de documentos do Amazon Textract.

Os exemplos a seguir mostram como configurar DocumentReaderConfig para casos de uso específico:

  1. Use o Amazon Textract para todos os arquivos em PDF.

    1. DocumentReadMode— Definido comoFORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction— Definido comoTEXTRACT_DETECT_DOCUMENT_TEXT.

    3. FeatureTypes— Não é necessário.

  2. Use a API AnalyzeDocument do Amazon Textract para todos os arquivos em PDF e de imagem.

    1. DocumentReadMode— Definido comoFORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction— Definido comoTEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes— Defina TABLES como FORMS ou ambos os recursos.

  3. Use a API AnalyzeDocument do Amazon Textract para arquivos em PDF digitalizados e todos os arquivos de imagem.

    1. DocumentReadMode— Definido comoSERVICE_DEFAULT.

    2. DocumentReadAction— Definido comoTEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes— Defina TABLES como FORMS ou ambos os recursos.

Para obter mais informações sobre as opções do Amazon Textract, consulte. DocumentReaderConfig