Best practice per la fase di lavorazione

Fase di lavorazione

Amazon Textract estrae il contenuto dei file PDF come stringhe che non possono essere utilizzate direttamente dalle applicazioni successive (ad esempio, per generare statistiche aggregando numeri). I valori dei dati correttamente identificati e trasformati sono necessari perché possono essere utilizzati più facilmente dalle applicazioni successive (ad esempio, per tracciare le tendenze dei costi come serie temporali). Per implementare l'elaborazione dei file PDF, un file PDF per ogni nuovo tipo di file PDF deve essere elaborato una sola volta tramite Amazon Textract, che quindi genera unTemplate file in formato JSON.

Dopo l'avvio dellaAWS Lambda funzione inFase di ingestione, viene eseguita la procedura descritta nel diagramma seguente.

LaAWS Lambda funzione chiama Amazon Textract per elaborare il file PDF, utilizza il fileTemplate JSON predefinito e applica le regole di post-elaborazione prima di archiviare l'output finale in un bucket S3.

Il diagramma mostra la funzione Lambda che implementa i seguenti passaggi:

Chiama Amazon Textract per elaborare il file PDF, estrarne il contenuto e restituire un file in formato JSON.
Prende il file JSON e analizza moduli e tabelle utilizzando un fileTemplate JSON predefinito con il nome della chiave e il tipo di valore corretti per ogni campo. Questo processo fornisce un file JSON analizzato.
Applica le regole di post-elaborazione e utilizza il fileTemplate JSON per correggere ogni valore nel file JSON analizzato. Questo produce il fileFinal JSON. Il fileTemplate JSON predefinito può essere archiviato nel bucket S3.
Memorizza il fileFinal JSON in Amazon DynamoDB come un record per ogni file PDF, oltre a un file JSON per ogni file PDF in un bucket di output S3.

Per un step-by-step flusso di lavoro che utilizza Amazon Textract per estrarre automaticamente il contenuto dai file PDF ed elaborarlo in un output pulito, consulta lo schema Estrarre automaticamente il contenuto dai file PDF utilizzando Amazon Textract sul sito Web diAWS Prescriptive Guidance. Il modello utilizza una tecnica di abbinamento dei modelli per identificare correttamente il campo, il nome della chiave e le tabelle richiesti, quindi applica le correzioni successive all'elaborazione a ciascun tipo di dati.

Best practice per la fase di lavorazione

Utilizza le seguenti quattro best practice per garantire una fase di elaborazione di successo:

Crea un file JSON modello per ogni tipo di file PDF che desideri elaborare. È possibile archiviare questi diversi file JSON modello in un bucket S3 richiamato dalla funzione Lambda. Se si desidera elaborare diversi tipi di file PDF in un'unica funzione Lambda, è necessario utilizzare un identificatore univoco per ogni tipo di file PDF (ad esempio, il nome della cartella del tipo di file PDF nel bucket S3). Dopo aver richiamato la funzione Lambda, recupera il file JSON modello appropriato e lo elabora.
Imposta un meccanismo per tracciare con precisione lo stato di ogni fase della funzione Lambda. Ad esempio, puoi aggiungereSuccess stati per dopo la chiamata Amazon Textract, quando il file JSON finale viene salvato in una tabella Amazon DynamoDB o quando i file PDF vengono salvati in un bucket S3. Puoi anche creare una tabella DynamoDB separata per tenere traccia dello stato di ogni file PDF nei diversi passaggi, il che fornisce visibilità sul processo.
Gestisci la limitazione e le connessioni interrotte riprovando automaticamente le operazioni non riuscite quando elabori in batch molti file PDF. In Amazon Textract la limitazione può verificarsi se la connessione viene interrotta o viene superato il numero massimo di transazioni al secondo (TPS). Per ulteriori informazioni e procedure per riprovare automaticamente le operazioni non riuscite, consulta Gestione delle chiamate limitate e delle connessioni interrotte nella documentazione di Amazon Textract.
Se disponi di file PDF con più pagine, puoi utilizzare un'operazione asincrona per elaborare l'intero file o suddividere il file PDF in una singola pagina, utilizzare un'operazione sincrona per elaborare ogni pagina e quindi combinare i risultati di ogni pagina. Per un'implementazione completa del codice di un'operazione asincrona, consulta Rilevamento e analisi del testo in documenti multipagina nella documentazione di Amazon Textract. Per ulteriori informazioni sull'utilizzo di un'operazione sincrona, consulta Rilevamento e analisi del testo in documenti a pagina singola nella documentazione di Amazon Textract.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Fase di ingestione

Fase di archiviazione dati