Analisi di documenti - Amazon Textract

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Analisi di documenti

Amazon Textract analizza documenti e moduli per le relazioni tra il testo rilevato. Le operazioni di analisi di Amazon Textract restituiscono 3 categorie di estrazione di documenti: testo, moduli e tabelle. L'analisi delle fatture e delle ricevute viene gestita attraverso un processo diverso, per ulteriori informazioni vedereAnalisi di fatture e ricevute.

Estrazione di testo

Il testo grezzo estratto da un documento. Per ulteriori informazioni, consultaLinee e parole di testo.

Estrazione modulo

I dati del modulo sono collegati a elementi di testo estratti da un documento. Amazon Textract rappresenta i dati del modulo come coppie chiave-valore. Nell'esempio seguente, una delle righe di testo rilevate da Amazon Textract èNome: Jane Doe. Amazon Textract identifica anche una chiave (Nome:) e un valore (Jane Doe). Per ulteriori informazioni, consultaDati del modulo (coppie chiave-valore).

Nome: Jane Doe

Indirizzo: 123 Any Street, Anytown, Stati Uniti

Data di nascita: 12-26-1980

Le coppie chiave-valore vengono utilizzate anche per rappresentare caselle di controllo o pulsanti di opzione (pulsanti di opzione) estratti dai moduli.

Maschio:

Per ulteriori informazioni, consultaElementi di selezione.

Estrazione da tavolo

Amazon Textract può estrarre tabelle, celle di tabella e gli elementi all'interno delle celle della tabella e può essere programmato per restituire i risultati in un file JSON, .csv o txt.

Nome Indirizzo

Ana Carolina

123 Qualsiasi città

Per ulteriori informazioni, consulta Tabelle. Gli elementi di selezione possono essere estratti anche dalle tabelle. Per ulteriori informazioni, consultaElementi di selezione.

Per gli articoli analizzati, Amazon Textract restituisce quanto segue in piùBlockobjects:

  • Le righe e le parole del testo rilevato

  • Il contenuto degli elementi rilevati

  • La relazione tra gli elementi rilevati

  • La pagina in cui è stato rilevato l'elemento

  • La posizione dell'elemento nella pagina del documento

È possibile utilizzare operazioni sincrone o asincrone per analizzare il testo in un documento. Per analizzare il testo in modo sincrono, utilizzare ilAnalyzeDocumentoperazione e passa un documento come input.AnalyzeDocumentrestituisce l'intero set di risultati. Per ulteriori informazioni, consultare Analisi del testo del documento con Amazon Textract.

Per rilevare il testo in modo asincrono, utilizzaStartDocumentAnalysisper iniziare l'elaborazione. Per ricevere i risultati, chiamaGetDocumentAnalysis. I risultati vengono restituiti in una o più risposte daGetDocumentAnalysis. Per ulteriori informazioni e un esempio, consulta Rilevamento o analisi del testo in un documento multipagina.

Per specificare quale tipo di analisi eseguire, è possibile utilizzare ilFeatureTypesparametro di input list. Aggiungere TABLES all'elenco per restituire informazioni sulle tabelle rilevate nel documento di input, ad esempio celle di tabella, testo cella ed elementi di selezione nelle celle. Aggiungi FORMS per restituire relazioni di parole, come coppie chiave-valore ed elementi di selezione. Per eseguire entrambi i tipi di analisi, aggiungere sia TABLES che FORMS aFeatureTypes.

Tutte le righe e le parole rilevate nel documento sono incluse nella risposta (incluso il testo non correlato al valore diFeatureTypes).