Fase de armazenamento de dados - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Fase de armazenamento de dados

Como o conteúdo do arquivo PDF normalmente inclui formulários (pares de valores-chave), tabelas e texto livre, o arquivo JSON deve incluir pares de valores-chave aninhados para representar a estrutura do arquivo PDF e armazenar os dados extraídos. Os arquivos PDF são dados não estruturados ou semiestruturados, o que significa que eles não têm um esquema fixo. Isso significa que pode ser difícil armazenar o conteúdo do arquivo PDF em um banco de dados SQL tradicional. No entanto, um banco de dados NoSQL é ideal para armazenar conteúdo de arquivos PDF porque não exige um esquema predefinido. Depois que o conteúdo do arquivo PDF for extraído e pós-processado, você poderá armazená-lo como um registro para cada arquivo PDF em uma tabela do Amazon DynamoDB.

Recomendamos armazenar os dados extraídos finais como um arquivo JSON no Amazon Simple Storage Service (Amazon S3) e como um registro em uma tabela do DynamoDB. Seus aplicativos posteriores de processamento e análise podem facilmente referenciar arquivos JSON no Amazon S3. Por exemplo, eles podem usar o Amazon S3 como fonte de dados para criar modelos de ML na Amazon SageMaker, consultar diretamente o arquivo JSON usando o Amazon Athena ou usar o Amazon S3 como fonte de dados para a Amazon QuickSight. O conteúdo do arquivo PDF extraído armazenado nas tabelas do DynamoDB pode ser facilmente acessado com baixa latência em qualquer escala, o que torna essa abordagem apropriada para uso como seu banco de dados de back-end para consultas e digitalizações.

Melhores práticas para a fase de armazenamento de dados

Use as duas melhores práticas a seguir para garantir uma fase de armazenamento de dados bem-sucedida:

  • Certifique-se de armazenar o arquivo JSON final no Amazon S3 em uma pasta de saída diferente e usar um nome baseado no tipo de arquivo PDF.

  • O DynamoDB usa uma chave primária para identificar exclusivamente cada item em uma tabela. A chave primária pode ser uma chave única (por exemplo, uma chave de partição) ou composta (por exemplo, uma chave de partição e uma chave de classificação). Para a chave primária dessa solução, recomendamos que você use um identificador de arquivo PDF exclusivo (por exemplo, o nome do arquivo PDF) como chave de partição ou uma combinação de dois identificadores (por exemplo, data e nome do depósito) como chave de partição e chave de classificação. Para obter mais informações sobre isso, consulte Componentes principais do Amazon DynamoDB na documentação do Amazon DynamoDB.