Fase de ingestão de escala vertical - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Fase de ingestão de escala vertical

Sua organização identifica um tipo de arquivo PDF que é gerado continuamente (por exemplo, um relatório diário de operações), tem um formato idêntico e do qual você precisa extrair dados de forma automática e regular. Para ingerir esse arquivo PDF, será necessário um bucket do Amazon Simple Storage Service (Amazon S3) e recomendamos que você criará um bucket S3 dedicado. No entanto, você também pode usar um bucket do S3 existente. Para mais informações sobre isso, consulte Como criar um bucket na documentação do Amazon S3.

O bucket do S3 invoca umaAWS Lambda função quando o novo arquivo PDF é ingerido. Para obter mais informações sobre isso, consulte Como usar um acionador do Amazon S3 para invocar uma função do Lambda naAWS Lambda documentação.

Em seguida, a função Lambda processa o arquivo PDF. Esse processo é descrito naFase de processamento do seção deste guia.

Práticas de Práticas de Práticas de Ingestão

Use as quatro melhores práticas a seguir para garantir uma ingestão bem-sucedida de arquivos PDF:

  • Use a ingestão em massa para arquivos PDF históricos e a ingestão contínua para novos arquivos PDF.

  • Para ingestão em massa, use o despejo em massa (por exemplo, fazer upload de arquivos PDF de uma unidade local). Se você tiver mais de um tipo de arquivo PDF, recomendamos usar pastas diferentes para armazenar cada tipo de arquivo PDF. Também recomendamos o uso de um padrão de nomenclatura exclusivo e descritivo para os arquivos, comowarehouse_<wharehouse_number>_<mmddyy>_<PDF_file_type>.pdf.

  • Para ingerir continuamente novos arquivos PDF, seu sistema de origem deve se conectar ao bucket do S3. Por exemplo, você pode configurar um despejo diário do seu sistema de origem para o bucket do S3.

  • Certifique-se de que seus arquivos PDF sejam de boa qualidade e claramente legíveis. Recomendamos o uso de arquivos PDF nativos, mas você também pode usar documentos digitalizados que são convertidos em um formato PDF se as palavras individuais estiverem claras. Para obter mais informações sobre isso, consulte Pré-processamento de arquivos PDF com o Amazon Textract: detecção e remoção de imagens no blogAWS Machine Learning.