Projetando uma solução automatizada para analisar arquivos PDF noNuvem AWS - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Projetando uma solução automatizada para analisar arquivos PDF noNuvem AWS

Tianxia Jia e Yanyan Zhang, Amazon Web Services (AWS)

Outubro de 2021 (histórico do documento)

Organizations usam regularmente arquivos PDF para armazenar e transferir diferentes tipos de dados, incluindo texto, tabelas e formulários. No entanto, pode ser difícil agregar e analisar automaticamente dados de diferentes arquivos PDF. Por exemplo, o aplicativo comercial de uma organização pode ingerir regularmente diferentes arquivos PDF com um formato idêntico, mas que os usuários devem abrir e ler individualmente. Isso significa que os usuários acham difícil gerar informações úteis a partir desses arquivos PDF e precisam extrair manualmente os dados relevantes e usar ferramentas de terceiros para análises adicionais.

Na nuvem Amazon Web Services (AWS), o Amazon Textract extrai automaticamente informações (por exemplo, texto impresso, formulários e tabelas) de arquivos PDF e produz um arquivo em formato JSON que contém informações do arquivo PDF original. Durante o pós-processamento, os dados extraídos são armazenados no Amazon DynamoDB e você pode gerar insights de negócios usando análises e visualizações na Amazon QuickSight.

Este guia fornece uma solução automatizada de análise de arquivos PDF sem servidor em quatro fases:

O guia usa o Amazon S3 para armazenar os dados brutos e processados, AWS Lambdapara computação, o Amazon Textract para extrair conteúdo de arquivos PDF, o DynamoDB para armazenar os dados processados e o Amazon QuickSight para análise e visualizações. Este guia é destinado a cientistas de dados, engenheiros de aprendizado de máquina (ML) e arquitetos de soluções que desejam extrair informações automaticamente e gerar insights a partir de arquivos PDF.

Resultados comerciais direcionados

Você deve esperar os três resultados a seguir depois de criar uma solução automatizada para analisar arquivos PDF noNuvem AWS:

  • Processe automaticamente dados brutos de vários arquivos PDF em grande escala usando uma solução automatizada que é atualizada quando novos dados são disponibilizados.

  • Aplicativos de modelagem e análise posteriores (por exemplo, modelagem de ML na Amazon SageMaker) podem acessar o conteúdo do arquivo PDF extraído.

  • Painéis de dados que mostram todo o conteúdo do arquivo PDF para seus usuários finais na Amazon QuickSight.