Block - Amazon Textract

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Block

UNBlockrappresenta elementi riconosciuti in un documento all'interno di un gruppo di pixel vicini l'uno all'altro. Le informazioni restituite in unBlockl'oggetto dipende dal tipo di operazione. Rilevamento del testo per documenti (ad esempioDetectDocumentText), si ottengono informazioni sulle parole e le righe di testo rilevate. Analisi testuale (ad esempioAnalyzeDocument), è inoltre possibile ottenere informazioni sui campi, le tabelle e gli elementi di selezione rilevati nel documento.

Una matrice diBlockgli oggetti vengono restituiti sia da operazioni sincrone che asincrone. Nelle operazioni sincrone, comeDetectDocumentText, la matrice diBlockobject è l'intero insieme di risultati. In operazioni asincrone, comeGetDocumentAnalysis, l'array viene restituito su una o più risposte.

Per ulteriori informazioni, consultaCome funziona Amazon Textract.

Indice

BlockType

Il tipo di elemento di testo riconosciuto. Nelle operazioni di rilevamento del testo vengono restituiti i seguenti tipi:

  • PAGINA- Contiene un elenco di LINEBlockoggetti rilevati in una pagina del documento.

  • PAROLA- Una parola rilevata in una pagina del documento. Una parola corrisponde a uno o più caratteri in alfabeto latino di base ISO non separati da spazi.

  • LINEA- Una stringa di parole contigue delimitate da tabulazioni rilevate in una pagina del documento.

Nelle operazioni di analisi del testo vengono restituiti i seguenti tipi:

  • PAGINA- Contiene un elenco di bambiniBlockoggetti rilevati in una pagina del documento.

  • KEY_VALUE_SET- Memorizza la CHIAVE e il VALOREBlockoggetti per il testo collegato rilevati in una pagina del documento. Utilizzo dell'EntityTypecampo per determinare se un oggetto KEY_VALUE_SET è KEYBlockoggetto o valoreBlockoggetto.

  • PAROLA- Una parola rilevata nella pagina di un documento. Una parola corrisponde a uno o più caratteri in alfabeto latino di base ISO non separati da spazi.

  • LINEA- Una stringa di parole contigue delimitate da tabulazioni rilevate in una pagina del documento.

  • TAVOLO- Una tabella rilevata in una pagina del documento. Una tabella è costituita da informazioni basate su griglia con due o più righe o colonne, con un intervallo di celle di una riga e di una colonna ciascuna.

  • CELLULA- Una cella all'interno di una tabella rilevata. La cella è il padre del blocco che contiene il testo nella cella.

  • SELECTION_ELEMENT- Elemento di selezione come un pulsante di opzione (pulsante di opzione) o una casella di controllo rilevata in una pagina del documento. Usa il valore diSelectionStatusper determinare lo stato dell'elemento di selezione.

Type: Stringa

Valori validi: KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT

: campo obbligatorio No

ColumnIndex

La colonna in cui viene visualizzata una cella di tabella. La prima posizione della colonna è 1.ColumnIndexnon viene restituito daDetectDocumentTexteGetDocumentTextDetection.

Type: Numero intero

Intervallo valido: Il valore minimo di 0.

: campo obbligatorio No

ColumnSpan

Il numero di colonne su cui si estende una cella di tabella. Attualmente questo valore è sempre 1, anche se il numero di colonne spanning è maggiore di 1.ColumnSpannon viene restituito daDetectDocumentTexteGetDocumentTextDetection.

Type: Numero intero

Intervallo valido: Il valore minimo di 0.

: campo obbligatorio No

Confidence

Il punteggio di affidabilità che Amazon Textract ha nell'accuratezza del testo riconosciuto e nella precisione dei punti geometrici attorno al testo riconosciuto.

Type: Float

Intervallo valido: Il valore minimo di 0. valore massimo pari a 100.

: campo obbligatorio No

EntityTypes

Il tipo di entità. Possono essere restituiti:

  • CHIAVE- Identificatore per un campo sul documento.

  • VALORE- Il testo del campo.

EntityTypesnon viene restituito daDetectDocumentTexteGetDocumentTextDetection.

Type: Gamma di stringhe

Valori validi: KEY | VALUE

: campo obbligatorio No

Geometry

La posizione del testo riconosciuto nell'immagine. Include un riquadro di delimitazione grossolano allineato all'asse che circonda il testo e un poligono a grana fine per informazioni spaziali più accurate.

Tipo: Geometry oggetto

: campo obbligatorio No

Id

Identificatore per il testo riconosciuto. L'identificatore è univoco solo per una singola operazione.

Type: Stringa

Modello: .*\S.*

: campo obbligatorio No

Page

La pagina in cui è stato rilevato un blocco.Pageviene restituito da operazioni asincrone. I valori di pagina superiori a 1 vengono restituiti solo per documenti multipagina in formato PDF o TIFF. Un'immagine scansionata (JPEG/PNG), anche se contiene più pagine di documento, è considerata un documento a pagina singola. Il valore diPageè sempre 1. Le operazioni sincrone non vengono restituitePageperché ogni documento di input è considerato un documento a pagina singola.

Type: Numero intero

Intervallo valido: Il valore minimo di 0.

: campo obbligatorio No

Relationships

Un elenco di blocchi figlio del blocco corrente. Ad esempio, un oggetto LINE ha blocchi figlio per ogni blocco WORD che fa parte della riga di testo. Non ci sono oggetti Relationship nell'elenco per le relazioni che non esistono, ad esempio quando il blocco corrente non ha blocchi figlio. Le dimensioni dell'elenco possono essere le seguenti:

  • 0 - Il blocco non ha blocchi figlio.

  • 1 - Il blocco ha blocchi figlio.

Type: matrice diRelationshipoggetti

: campo obbligatorio No

RowIndex

La riga in cui si trova una cella di tabella. La posizione della prima riga è 1.RowIndexnon viene restituito daDetectDocumentTexteGetDocumentTextDetection.

Type: Numero intero

Intervallo valido: Il valore minimo di 0.

: campo obbligatorio No

RowSpan

Il numero di righe che abbraccia una cella di una tabella. Attualmente questo valore è sempre 1, anche se il numero di righe spanning è maggiore di 1.RowSpannon viene restituito daDetectDocumentTexteGetDocumentTextDetection.

Type: Numero intero

Intervallo valido: Il valore minimo di 0.

: campo obbligatorio No

SelectionStatus

Lo stato di selezione di un elemento di selezione, ad esempio un pulsante di opzione o una casella di controllo.

Type: Stringa

Valori validi: SELECTED | NOT_SELECTED

: campo obbligatorio No

Text

La parola o la riga di testo riconosciuta da Amazon Textract.

Type: Stringa

: campo obbligatorio No

TextType

Il tipo di testo rilevato da Amazon Textract. Può verificare la presenza di testo scritto a mano e testo stampato.

Type: Stringa

Valori validi: HANDWRITING | PRINTED

: campo obbligatorio No

Vedi anche

Per ulteriori informazioni sull'utilizzo di questa API in uno degli SDK AWS specifici della lingua, consulta quanto segue: