As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Fase de ingestão
Sua organização identifica um tipo de arquivo PDF que é gerado continuamente (por exemplo, um relatório diário de operações), tem um formato idêntico e do qual você precisa extrair dados de forma automática e regular. Para ingerir esse arquivo PDF, você precisa de um bucket do Amazon Simple Storage Service (Amazon S3) e recomendamos que você crie um bucket S3 dedicado. No entanto, você também pode usar um bucket S3 existente. Para obter mais informações sobre isso, consulte Criação de um bucket na documentação do Amazon S3.
O bucket do S3 invoca uma AWS Lambda função quando o novo arquivo PDF é ingerido. Para obter mais informações sobre isso, consulte Usando um gatilho do Amazon S3 para invocar uma função Lambda na documentação. AWS Lambda
Em seguida, a função Lambda processa o arquivo PDF. Esse processo é descrito na Fase de processamento seção deste guia.
Melhores práticas para a fase de ingestão
Use as quatro melhores práticas a seguir para garantir uma ingestão bem-sucedida de arquivos PDF:
-
Use a ingestão em massa para arquivos PDF históricos e a ingestão contínua para novos arquivos PDF.
-
Para ingestão em massa, use o despejo em massa (por exemplo, fazer upload de arquivos PDF de uma unidade local). Se você tiver mais de um tipo de arquivo PDF, recomendamos usar pastas diferentes para armazenar cada tipo de arquivo PDF. Também recomendamos usar um padrão de nomenclatura exclusivo e descritivo para os arquivos, como.
warehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf
-
Para ingerir continuamente novos arquivos PDF, seu sistema de origem deve se conectar ao seu bucket do S3. Por exemplo, você pode configurar um despejo diário do seu sistema de origem para o bucket do S3.
-
Certifique-se de que seus arquivos PDF sejam de boa qualidade e claramente legíveis. Recomendamos o uso de arquivos PDF nativos, mas você também pode usar documentos digitalizados que são convertidos em formato PDF se as palavras individuais estiverem claras. Para obter mais informações sobre isso, consulte Pré-processamento de arquivos PDF com o Amazon Textract: detecção e remoção de imagens
no blog do Machine AWS Learning.