Fase di archiviazione dati - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Fase di archiviazione dati

Poiché i contenuti dei file PDF in genere includono moduli (coppie chiave-valore), tabelle e testo libero, il file JSON deve includere coppie chiave-valore annidate per rappresentare la struttura del file PDF e memorizzare i dati estratti. I file PDF sono dati non strutturati o semi-strutturati, il che significa che non hanno uno schema fisso. Ciò significa che può essere difficile archiviare i contenuti dei file PDF in un database SQL tradizionale. Tuttavia, un database NoSQL è ideale per archiviare i contenuti dei file PDF perché non richiede uno schema predefinito. Dopo l'estrazione e la post-elaborazione dei contenuti dei file PDF, puoi archiviarli come un record per ogni file PDF in una tabella Amazon DynamoDB.

Consigliamo di archiviare i dati finali estratti come un file JSON in Amazon Simple Storage Service (Amazon S3) e come record in una tabella DynamoDB. Le tue applicazioni di elaborazione e analisi downstream possono facilmente fare riferimento ai file JSON in Amazon S3. Ad esempio, possono utilizzare Amazon S3 come fonte di dati per creare modelli ML in Amazon SageMaker, interrogare direttamente il file JSON utilizzando Amazon Athena o utilizzare Amazon S3 come fonte di dati per Amazon QuickSight. I contenuti dei file PDF estratti archiviati nelle tabelle DynamoDB sono facilmente accessibili con bassa latenza su qualsiasi scala, il che rende questo approccio appropriato da utilizzare come database di backend per interrogazioni e scansioni.

Le migliori pratiche per la fase di archiviazione dei dati

Utilizza le due best practice seguenti per garantire una fase di archiviazione dei dati di successo:

  • Assicurati di archiviare il file JSON finale su Amazon S3 in una cartella di output diversa e di utilizzare un nome basato sul tipo di file PDF.

  • DynamoDB utilizza una chiave primaria per identificare in modo univoco ciascun elemento in una tabella. La chiave primaria può essere una chiave singola (ad esempio una chiave di partizione) o composita (ad esempio, una chiave di partizione e una chiave di ordinamento). Per la chiave primaria di questa soluzione, si consiglia di utilizzare un identificatore univoco di file PDF (ad esempio, il nome del file PDF) come chiave di partizione o una combinazione di due identificatori (ad esempio, data e nome del magazzino) come chiave di partizione e chiave di ordinamento. Per ulteriori informazioni a riguardo, consulta Componenti principali di Amazon DynamoDB nella documentazione di Amazon DynamoDB.