Configurar opções de extração de texto

Por padrão, o Amazon Comprehend executa as seguintes ações para extrair texto de um arquivo, com base no tipo de arquivo de entrada:

Arquivos do Word: o analisador do Amazon Comprehend extrai o texto.
Arquivos em PDF digitais: o analisador do Amazon Comprehend extrai o texto.
Arquivos de imagem e em PDF digitalizados: O Amazon Comprehend usa a API do Amazon Textract DetectDocumentText para extrair o texto.

Para arquivos de imagem e arquivos em PDF, você pode usar o parâmetro DocumentReaderConfig para substituir essas ações padrão de extração. Esse parâmetro está disponível quando você usa o console ou a API do Amazon Comprehend para análises personalizadas assíncronas ou em tempo real.

O parâmetro DocumentReaderConfig contém três campos:

DocumentReadMode— Defina como SERVICE_DEFAULT para que o Amazon Comprehend execute as ações padrão.

Define FORCE_DOCUMENT_READ_ACTION para usar o Amazon Textract para analisar arquivos em PDF digitais.
DocumentReadAction— Define a API Amazon Textract (DetectDocumentText ou AnalyzeDocument) para usar quando o Amazon Comprehend usa o Amazon Textract para extração de texto.
FeatureTypes— Se você DocumentReadActiondefinir o uso da operação de AnalyzeDocument API, poderá adicionar uma ou ambas FeatureTypes (TABELAS, FORMULÁRIOS). Esses recursos fornecem informações adicionais sobre as tabelas e formulários no documento. Para obter mais informações sobre esses recursos, consulte Objetos de resposta da análise de documentos do Amazon Textract.

Os exemplos a seguir mostram como configurar DocumentReaderConfig para casos de uso específico:

Use o Amazon Textract para todos os arquivos em PDF.
1. DocumentReadMode: defina como FORCE_DOCUMENT_READ_ACTION.
2. DocumentReadAction: defina como TEXTRACT_DETECT_DOCUMENT_TEXT.
3. FeatureTypes— Não é necessário.
Use a API AnalyzeDocument do Amazon Textract para todos os arquivos em PDF e de imagem.
1. DocumentReadMode: defina como FORCE_DOCUMENT_READ_ACTION.
2. DocumentReadAction: defina como TEXTRACT_ANALYZE_DOCUMENT.
3. FeatureTypes— Defina TABLES como FORMS ou ambos os recursos.
Use a API AnalyzeDocument do Amazon Textract para arquivos em PDF digitalizados e todos os arquivos de imagem.
1. DocumentReadMode: defina como SERVICE_DEFAULT.
2. DocumentReadAction: defina como TEXTRACT_ANALYZE_DOCUMENT.
3. FeatureTypes— Defina TABLES como FORMS ou ambos os recursos.

Para obter mais informações sobre as opções do Amazon Textract, consulte. DocumentReaderConfig

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Entradas para análise assíncrona

Práticas recomendadas para imagens