Projetando uma solução automatizada para analisar arquivos PDF noNuvem AWS

Tianxia Jia e Yanyan Zhang, Amazon Web Services (AWS)

Outubro de 2021 (histórico do documento)

Organizations usam regularmente arquivos PDF para armazenar e transferir diferentes tipos de dados, incluindo texto, tabelas e formulários. No entanto, pode ser difícil agregar e analisar automaticamente dados de diferentes arquivos PDF. Por exemplo, o aplicativo comercial de uma organização pode ingerir regularmente diferentes arquivos PDF com um formato idêntico, mas que os usuários devem abrir e ler individualmente. Isso significa que os usuários acham difícil gerar informações úteis a partir desses arquivos PDF e precisam extrair manualmente os dados relevantes e usar ferramentas de terceiros para análises adicionais.

Na nuvem Amazon Web Services (AWS), o Amazon Textract extrai automaticamente informações (por exemplo, texto impresso, formulários e tabelas) de arquivos PDF e produz um arquivo em formato JSON que contém informações do arquivo PDF original. Durante o pós-processamento, os dados extraídos são armazenados no Amazon DynamoDB e você pode gerar insights de negócios usando análises e visualizações na Amazon QuickSight.

Este guia fornece uma solução automatizada de análise de arquivos PDF sem servidor em quatro fases:

Fase de ingestão de escala vertical— Prepare um tipo de arquivo PDF que sua organização gera continuamente (por exemplo, um relatório diário de operações) e do qual você precise extrair dados regularmente.
Fase de processamento do— Extraia os valores de dados exigidos por seus aplicativos posteriores dos arquivos PDF.
Fase de armazenamento de dados— Armazene os dados extraídos como um arquivo JSON no Amazon Simple Storage Service (Amazon S3) e como um registro em uma tabela do DynamoDB.
Fase de análise do— Crie painéis na Amazon QuickSight para visualizar e ajudar a analisar os dados.

O guia usa o Amazon S3 para armazenar os dados brutos e processados, AWS Lambdapara computação, o Amazon Textract para extrair conteúdo de arquivos PDF, o DynamoDB para armazenar os dados processados e o Amazon QuickSight para análise e visualizações. Este guia é destinado a cientistas de dados, engenheiros de aprendizado de máquina (ML) e arquitetos de soluções que desejam extrair informações automaticamente e gerar insights a partir de arquivos PDF.

Resultados comerciais direcionados

Você deve esperar os três resultados a seguir depois de criar uma solução automatizada para analisar arquivos PDF noNuvem AWS:

Processe automaticamente dados brutos de vários arquivos PDF em grande escala usando uma solução automatizada que é atualizada quando novos dados são disponibilizados.
Aplicativos de modelagem e análise posteriores (por exemplo, modelagem de ML na Amazon SageMaker) podem acessar o conteúdo do arquivo PDF extraído.
Painéis de dados que mostram todo o conteúdo do arquivo PDF para seus usuários finais na Amazon QuickSight.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Arquuras de referência