AnalyzeDocument - Amazon Textract

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AnalyzeDocument

Analizza un documento di input per individuare relazioni tra gli elementi rilevati.

I tipi di informazioni restituite sono i seguenti:

  • Dati del modulo (coppie chiave-valore). Le informazioni correlate vengono restituite in dueBlockoggetti, ciascuno di tipoKEY_VALUE_SET: KEYBlockoggetto e un VALOREBlockoggetto. Ad esempio:Nome: Ana Silva Carolinacontiene una chiave e un valore. Nome:è la chiave. Ana Silva Carolinaè il valore.

  • Dati delle celle di tabella e tabella. UNA TABELLABlockobject contiene informazioni su una tabella rilevata. CELLABlockl'oggetto viene restituito per ogni cella di una tabella.

  • Linee e parole di testo. RIGABlockobject contiene una o più WORDBlockobjects. Tutte le righe e le parole rilevate nel documento vengono restituite (incluso il testo che non ha una relazione con il valore diFeatureTypes).

Elementi di selezione come caselle di controllo e pulsanti di opzione (pulsanti di opzione) possono essere rilevati nei dati del modulo e nelle tabelle. UN ELEMENTO SELECTION_ELEMENTBlockobject contiene informazioni su un elemento di selezione, incluso lo stato della selezione.

È possibile scegliere il tipo di analisi da eseguire specificando ilFeatureTypeselenco.

L'output viene restituito in un elenco diBlockobjects.

AnalyzeDocumentè un'operazione sincrona. Per analizzare i documenti in modo asincrono, utilizzareStartDocumentAnalysis.

Per ulteriori informazioni, consultaAnalisi del testo dei documenti.

Sintassi della richiesta

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "FeatureTypes": [ "string" ], "HumanLoopConfig": { "DataAttributes": { "ContentClassifiers": [ "string" ] }, "FlowDefinitionArn": "string", "HumanLoopName": "string" } }

Parametri della richiesta

La richiesta accetta i seguenti dati in formato JSON.

Document

Il documento di input come byte con codifica base64 o un oggetto Amazon S3. Se usi la CLI di AWS per chiamare le operazioni di Amazon Textract, non puoi passare byte immagine. Il documento deve essere un'immagine in formato JPEG, PNG, PDF o TIFF.

Se utilizzi un SDK AWS per chiamare Amazon Textract, potrebbe non essere necessario codificare in base a 64 byte immagine che vengono passati utilizzando ilBytes.

Tipo: Document oggetto

: Sì

FeatureTypes

Un elenco dei tipi di analisi da eseguire. Aggiungere TABLES all'elenco per restituire informazioni sulle tabelle rilevate nel documento di input. Aggiungi FORMS per restituire i dati del modulo rilevati. Per eseguire entrambi i tipi di analisi, aggiungere TABLES e FORMS aFeatureTypes. Tutte le righe e le parole rilevate nel documento sono incluse nella risposta (incluso il testo che non è correlato al valore diFeatureTypes).

Type: Gamma di stringhe

Valori validi: TABLES | FORMS

: Sì

HumanLoopConfig

Imposta la configurazione per il flusso di lavoro umano in loop per l'analisi dei documenti.

Tipo: HumanLoopConfig oggetto

: No

Sintassi della risposta

{ "AnalyzeDocumentModelVersion": "string", "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DocumentMetadata": { "Pages": number }, "HumanLoopActivationOutput": { "HumanLoopActivationConditionsEvaluationResults": "string", "HumanLoopActivationReasons": [ "string" ], "HumanLoopArn": "string" } }

Elementi di risposta

Se l'operazione riesce, il servizio restituisce una risposta HTTP 200.

I dati seguenti vengono restituiti in formato JSON mediante il servizio.

AnalyzeDocumentModelVersion

La versione del modello utilizzata per analizzare il documento.

Type: Stringa

Blocks

Gli elementi rilevati e analizzati daAnalyzeDocument.

Type: Matrice diBlockoggetti

DocumentMetadata

Metadati sul documento analizzato. Un esempio è il numero di pagine.

Tipo: DocumentMetadata oggetto

HumanLoopActivationOutput

Mostra i risultati della valutazione umana nel ciclo.

Tipo: HumanLoopActivationOutput oggetto

Errori

AccessDeniedException

Non sei autorizzato a eseguire l'operazione. Utilizzare l'ARN (Amazon Resource Name) di un utente autorizzato o un ruolo IAM per eseguire l'operazione.

Codice di stato HTTP: 400

BadDocumentException

Amazon Textract non è in grado di leggere il documento. Per ulteriori informazioni sui limiti dei documenti in Amazon Textract, consultaLimiti rigidi per Amazon Textract.

Codice di stato HTTP: 400

DocumentTooLargeException

Il documento non può essere elaborato perché è troppo grande. La dimensione massima dei documenti per operazioni sincrone 10 MB. La dimensione massima del documento per le operazioni asincrone è di 500 MB per i file PDF.

Codice di stato HTTP: 400

HumanLoopQuotaExceededException

Indica che hai superato il numero massimo di flussi di lavoro di loop attivi disponibili

Codice di stato HTTP: 400

InternalServerError

Amazon Textract ha riscontrato un problema del servizio. Riprova la chiamata.

Codice di stato HTTP: 500

InvalidParameterException

Un parametro di input ha violato un vincolo. Ad esempio, nelle operazioni sincrone, unInvalidParameterExceptioneccezione si verifica quando nessuno dei dueS3ObjectoBytesi valori sono forniti nelDocumentparametro della richiesta. Convalida il parametro prima di chiamare nuovamente l'operazione API.

Codice di stato HTTP: 400

InvalidS3ObjectException

Amazon Textract non è in grado di accedere all'oggetto S3 specificato nella richiesta. Per ulteriori informazioni,Configura l'accesso ad Amazon S3Per informazioni sulla risoluzione dei problemi, consultaRisoluzione dei problemi Amazon S3

Codice di stato HTTP: 400

ProvisionedThroughputExceededException

Il numero di richieste ha superato il limite di throughput. Per aumentare questo limite, contatta Amazon Textract.

Codice di stato HTTP: 400

ThrottlingException

Amazon Textract non è temporaneamente in grado di elaborare la richiesta. Riprova la chiamata.

Codice di stato HTTP: 500

UnsupportedDocumentException

Il formato del documento di input non è supportato. I documenti per le operazioni possono essere in formato PNG, JPEG, PDF o TIFF.

Codice di stato HTTP: 400

Vedi anche

Per ulteriori informazioni sull'utilizzo di questa API in uno degli SDK AWS specifici della lingua, consulta quanto segue: