Fase de armazenamento de dados - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Fase de armazenamento de dados

Como o conteúdo do arquivo PDF geralmente inclui formulários (pares de valores-chave), tabelas e texto livre, o arquivo JSON deve incluir pares de valores-chave aninhados para representar a estrutura do arquivo PDF e armazenar os dados extraídos. Os arquivos PDF são dados não estruturados ou semiestruturados, o que significa que eles não têm um esquema fixo. Isso significa que pode ser difícil armazenar o conteúdo do arquivo PDF em um banco de dados SQL tradicional. No entanto, um banco de dados NoSQL é ideal para armazenar conteúdo de arquivos PDF porque não requer um esquema predefinido. Depois que o conteúdo do arquivo PDF for extraído e pós-processado, você poderá armazená-lo como um registro para cada arquivo PDF em uma tabela do Amazon DynamoDB.

Recomendamos que você armazene os dados finais extraídos como um arquivo JSON no Amazon Simple Storage Service (Amazon S3) e como um registro em uma tabela do DynamoDB. Seus aplicativos de processamento e análise downstream podem facilmente referenciar arquivos JSON no Amazon S3. Por exemplo, eles podem usar o Amazon S3 como fonte de dados para criar modelos de ML no Amazon SageMaker AI, consultar diretamente o arquivo JSON usando o Amazon Athena ou usar o Amazon S3 como fonte de dados para a Amazon. QuickSight O conteúdo extraído do arquivo PDF armazenado nas tabelas do DynamoDB pode ser facilmente acessado com baixa latência em qualquer escala, o que torna essa abordagem apropriada para uso como seu banco de dados de back-end para consultas e digitalizações.

Melhores práticas para a fase de armazenamento de dados

Use as duas melhores práticas a seguir para garantir uma fase bem-sucedida de armazenamento de dados:

  • Certifique-se de armazenar o arquivo JSON final no Amazon S3 em uma pasta de saída diferente e usar um nome com base no tipo de arquivo PDF.

  • O DynamoDB usa uma chave primária para identificar de forma exclusiva cada item em uma tabela. A chave primária pode ser uma chave única (por exemplo, uma chave de partição) ou composta (por exemplo, uma chave de partição e uma chave de classificação). Para a chave primária dessa solução, recomendamos que você use um identificador de arquivo PDF exclusivo (por exemplo, o nome do arquivo PDF) como chave de partição ou uma combinação de dois identificadores (por exemplo, data e nome do depósito) como chave de partição e chave de classificação. Para obter mais informações sobre isso, consulte Componentes principais do Amazon DynamoDB na documentação do Amazon DynamoDB.