As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Projetando uma solução automatizada para analisar arquivos PDF noNuvem AWS
Tianxia Jia e Yanyan Zhang, Amazon Web Services (AWS)
Outubro de 2021 (histórico do documento)
Organizations usam regularmente arquivos PDF para armazenar e transferir diferentes tipos de dados, incluindo texto, tabelas e formulários. No entanto, pode ser difícil agregar e analisar automaticamente dados de diferentes arquivos PDF. Por exemplo, o aplicativo comercial de uma organização pode ingerir regularmente diferentes arquivos PDF com um formato idêntico, mas que os usuários devem abrir e ler individualmente. Isso significa que os usuários acham difícil gerar informações úteis a partir desses arquivos PDF e precisam extrair manualmente os dados relevantes e usar ferramentas de terceiros para análises adicionais.
Na nuvem Amazon Web Services (AWS), o Amazon Textract extrai automaticamente informações (por exemplo, texto impresso, formulários e tabelas) de arquivos PDF e produz um arquivo em formato JSON que contém informações do arquivo PDF original. Durante o pós-processamento, os dados extraídos são armazenados no Amazon DynamoDB e você pode gerar insights de negócios usando análises e visualizações na Amazon QuickSight.
Este guia fornece uma solução automatizada de análise de arquivos PDF sem servidor em quatro fases:
-
Fase de ingestão de escala vertical— Prepare um tipo de arquivo PDF que sua organização gera continuamente (por exemplo, um relatório diário de operações) e do qual você precise extrair dados regularmente.
-
Fase de processamento do— Extraia os valores de dados exigidos por seus aplicativos posteriores dos arquivos PDF.
-
Fase de armazenamento de dados— Armazene os dados extraídos como um arquivo JSON no Amazon Simple Storage Service (Amazon S3) e como um registro em uma tabela do DynamoDB.
-
Fase de análise do— Crie painéis na Amazon QuickSight para visualizar e ajudar a analisar os dados.
O guia usa o Amazon S3 para armazenar os dados brutos e processados, AWS Lambdapara computação, o Amazon Textract para extrair conteúdo de arquivos PDF, o DynamoDB para armazenar os dados processados e o Amazon QuickSight para análise e visualizações. Este guia é destinado a cientistas de dados, engenheiros de aprendizado de máquina (ML) e arquitetos de soluções que desejam extrair informações automaticamente e gerar insights a partir de arquivos PDF.
Resultados comerciais direcionados
Você deve esperar os três resultados a seguir depois de criar uma solução automatizada para analisar arquivos PDF noNuvem AWS:
-
Processe automaticamente dados brutos de vários arquivos PDF em grande escala usando uma solução automatizada que é atualizada quando novos dados são disponibilizados.
-
Aplicativos de modelagem e análise posteriores (por exemplo, modelagem de ML na Amazon SageMaker) podem acessar o conteúdo do arquivo PDF extraído.
-
Painéis de dados que mostram todo o conteúdo do arquivo PDF para seus usuários finais na Amazon QuickSight.