Le migliori pratiche per la fase di archiviazione dei dati

Fase di archiviazione dei dati

Poiché i contenuti dei file PDF includono in genere moduli (coppie chiave-valore), tabelle e testo libero, il file JSON deve includere coppie chiave-valore annidate per rappresentare la struttura del file PDF e memorizzare i dati estratti. I file PDF sono dati non strutturati o semistrutturati, il che significa che non hanno uno schema fisso. Ciò significa che può essere difficile archiviare il contenuto dei file PDF in un database SQL tradizionale. Tuttavia, un database NoSQL è ideale per archiviare i contenuti dei file PDF perché non richiede uno schema predefinito. Dopo l'estrazione e la post-elaborazione dei contenuti dei file PDF, puoi archiviarli come un unico record per ogni file PDF in una tabella Amazon DynamoDB.

Ti consigliamo di archiviare i dati finali estratti come file JSON in Amazon Simple Storage Service (Amazon S3) e come record in una tabella DynamoDB. Le tue applicazioni di elaborazione e analisi downstream possono facilmente fare riferimento ai file JSON in Amazon S3. Ad esempio, possono utilizzare Amazon S3 come fonte di dati per creare modelli ML in Amazon SageMaker AI, interrogare direttamente il file JSON utilizzando Amazon Athena o utilizzare Amazon S3 come origine dati per Amazon. QuickSight I contenuti dei file PDF estratti archiviati nelle tabelle DynamoDB sono facilmente accessibili con bassa latenza su qualsiasi scala, il che rende questo approccio appropriato da utilizzare come database di backend per l'interrogazione e la scansione.

Le migliori pratiche per la fase di archiviazione dei dati

Utilizza le due best practice seguenti per garantire una corretta fase di archiviazione dei dati:

Assicurati di archiviare il file JSON finale su Amazon S3 in una cartella di output diversa e di utilizzare un nome basato sul tipo di file PDF.
DynamoDB utilizza una chiave primaria per identificare in modo univoco ogni elemento di una tabella. La chiave primaria può essere una chiave singola (ad esempio, una chiave di partizione) o composita (ad esempio, una chiave di partizione e una chiave di ordinamento). Per la chiave primaria di questa soluzione, si consiglia di utilizzare un identificatore di file PDF univoco (ad esempio, il nome del file PDF) come chiave di partizione o una combinazione di due identificatori (ad esempio, data e nome del magazzino) come chiave di partizione e chiave di ordinamento. Per ulteriori informazioni su questo argomento, consulta Componenti principali di Amazon DynamoDB nella documentazione di Amazon DynamoDB.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Fase di elaborazione

Fase di analisi