Melhores práticas para a fase de processamento

Fase de processamento

O Amazon Textract extrai o conteúdo do arquivo PDF como sequências de caracteres que não podem ser usadas diretamente por aplicativos downstream (por exemplo, para gerar estatísticas agregando números). Valores de dados identificados e transformados corretamente são necessários porque podem ser usados com mais facilidade por seus aplicativos downstream (por exemplo, para traçar tendências de custo como uma série temporal). Para implementar o processamento de arquivos PDF, um arquivo PDF de cada novo tipo de arquivo PDF deve ser processado uma vez por meio do Amazon Textract, que então gera um Template arquivo no formato JSON.

Depois que a AWS Lambda função é iniciada noFase de ingestão, ela executa as etapas mostradas no diagrama a seguir.

A AWS Lambda função chama o Amazon Textract para processar o arquivo PDF, usa o arquivo Template JSON predefinido e aplica regras de pós-processamento antes de armazenar a saída final em um bucket do S3.

O diagrama mostra a função Lambda implementando as seguintes etapas:

Chama o Amazon Textract para processar o arquivo PDF, extrair o conteúdo e retornar um arquivo formatado em JSON.
Pega o arquivo JSON e analisa formulários e tabelas usando um arquivo Template JSON predefinido que tem o nome de chave e o tipo de valor corretos para cada campo. Esse processo fornece um arquivo JSON analisado.
Aplica as regras de pós-processamento e usa o arquivo Template JSON para corrigir cada valor no arquivo JSON analisado. Isso produz o arquivo Final JSON. O arquivo Template JSON predefinido pode ser armazenado no bucket do S3.
Armazena o arquivo Final JSON no Amazon DynamoDB como um registro para cada arquivo PDF, além de um arquivo JSON para cada arquivo PDF em um bucket de saída do S3.

Para um step-by-step fluxo de trabalho que usa o Amazon Textract para extrair automaticamente conteúdo de arquivos PDF e processá-lo em uma saída limpa, consulte o padrão Extrair automaticamente conteúdo de arquivos PDF usando o Amazon Textract no AWS site Prescriptive Guidance. O padrão usa uma técnica de correspondência de modelos para identificar corretamente o campo obrigatório, o nome da chave e as tabelas e, em seguida, aplica correções de pós-processamento a cada tipo de dados.

Melhores práticas para a fase de processamento

Use as quatro melhores práticas a seguir para garantir uma fase de processamento bem-sucedida:

Crie um arquivo JSON modelo para cada tipo de arquivo PDF que você deseja processar. Você pode armazenar esses diferentes arquivos JSON de modelo em um bucket do S3 chamado pela função Lambda. Se você quiser processar diferentes tipos de arquivo PDF em uma função Lambda, use um identificador exclusivo para cada tipo de arquivo PDF (por exemplo, o nome da pasta do tipo de arquivo PDF no bucket do S3). Depois que a função Lambda é invocada, ela recupera o arquivo JSON de modelo apropriado e o processa.
Configure um mecanismo para rastrear com precisão o status de cada etapa na função Lambda. Por exemplo, você pode adicionar Success status após a chamada do Amazon Textract, quando o arquivo JSON final é salvo em uma tabela do Amazon DynamoDB ou quando os arquivos PDF são salvos em um bucket do S3. Você também pode criar uma tabela separada do DynamoDB para rastrear o status de cada arquivo PDF nas diferentes etapas, o que fornece visibilidade do processo.
Gerencie a limitação e a queda de conexões repetindo automaticamente as operações com falha ao processar em lote muitos arquivos PDF. A limitação pode ocorrer no Amazon Textract se sua conexão cair ou você exceder o número máximo de transações por segundo (TPS). Para obter mais informações e etapas para repetir automaticamente operações com falha, consulte Como lidar com chamadas limitadas e conexões interrompidas na documentação do Amazon Textract.
Se você tiver arquivos PDF com várias páginas, poderá usar uma operação assíncrona para processar o arquivo inteiro ou dividir o arquivo PDF em uma página individual, usar uma operação síncrona para processar cada página e combinar os resultados de cada página. Para uma implementação completa do código de uma operação assíncrona, consulte Detecção e análise de texto em documentos de várias páginas na documentação do Amazon Textract. Para obter mais informações sobre o uso de uma operação síncrona, consulte Detecção e análise de texto em documentos de página única na documentação do Amazon Textract.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Fase de ingestão

Fase de armazenamento de dados