As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configurando opções de extração de texto
Por padrão, o Amazon Comprehend executa as seguintes ações para extrair texto de um arquivo, com base no tipo de arquivo de entrada:
Arquivos do Word – o analisador do Amazon Comprehend extrai o texto.
Arquivos em PDF digitais – o analisador do Amazon Comprehend extrai o texto.
Arquivos de imagem e em PDF digitalizados – O Amazon Comprehend usa a API do Amazon Textract
DetectDocumentText
para extrair o texto.
Para arquivos de imagem e arquivos em PDF, você pode usar o parâmetro DocumentReaderConfig
para substituir essas ações padrão de extração. Esse parâmetro está disponível quando você usa o console ou a API do Amazon Comprehend para análises personalizadas assíncronas ou em tempo real.
O parâmetro DocumentReaderConfig
contém três campos:
-
DocumentReadMode— Defina como
SERVICE_DEFAULT
para que o Amazon Comprehend execute as ações padrão.Define
FORCE_DOCUMENT_READ_ACTION
para usar o Amazon Textract para analisar arquivos em PDF digitais. -
DocumentReadAction— Define a API Amazon Textract (DetectDocumentText ou AnalyzeDocument) para usar quando o Amazon Comprehend usa o Amazon Textract para extração de texto.
FeatureTypes— Se você DocumentReadActiondefinir o uso da operação de AnalyzeDocument API, poderá adicionar uma ou ambas
FeatureTypes
(TABELAS, FORMULÁRIOS). Esses recursos fornecem informações adicionais sobre as tabelas e formulários no documento. Para obter mais informações sobre esses recursos, consulte Objetos de resposta da análise de documentos do Amazon Textract.
Os exemplos a seguir mostram como configurar DocumentReaderConfig
para casos de uso específico:
Use o Amazon Textract para todos os arquivos em PDF.
-
DocumentReadMode— Definido como
FORCE_DOCUMENT_READ_ACTION
. -
DocumentReadAction— Definido como
TEXTRACT_DETECT_DOCUMENT_TEXT
. -
FeatureTypes— Não é necessário.
-
Use a API
AnalyzeDocument
do Amazon Textract para todos os arquivos em PDF e de imagem.-
DocumentReadMode— Definido como
FORCE_DOCUMENT_READ_ACTION
. -
DocumentReadAction— Definido como
TEXTRACT_ANALYZE_DOCUMENT
. -
FeatureTypes— Defina
TABLES
comoFORMS
ou ambos os recursos.
-
Use a API
AnalyzeDocument
do Amazon Textract para arquivos em PDF digitalizados e todos os arquivos de imagem.-
DocumentReadMode— Definido como
SERVICE_DEFAULT
. -
DocumentReadAction— Definido como
TEXTRACT_ANALYZE_DOCUMENT
. -
FeatureTypes— Defina
TABLES
comoFORMS
ou ambos os recursos.
-
Para obter mais informações sobre as opções do Amazon Textract, consulte. DocumentReaderConfig