Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AnalyzeDocument
Analizza un documento di input per individuare relazioni tra gli elementi rilevati.
I tipi di informazioni restituite sono i seguenti:
-
Dati del modulo (coppie chiave-valore). Le informazioni correlate vengono restituite in dueBlockoggetti, ciascuno di tipo
KEY_VALUE_SET
: KEYBlock
oggetto e un VALOREBlock
oggetto. Ad esempio:Nome: Ana Silva Carolinacontiene una chiave e un valore. Nome:è la chiave. Ana Silva Carolinaè il valore. -
Dati delle celle di tabella e tabella. UNA TABELLA
Block
object contiene informazioni su una tabella rilevata. CELLABlock
l'oggetto viene restituito per ogni cella di una tabella. -
Linee e parole di testo. RIGA
Block
object contiene una o più WORDBlock
objects. Tutte le righe e le parole rilevate nel documento vengono restituite (incluso il testo che non ha una relazione con il valore diFeatureTypes
).
Elementi di selezione come caselle di controllo e pulsanti di opzione (pulsanti di opzione) possono essere rilevati nei dati del modulo e nelle tabelle. UN ELEMENTO SELECTION_ELEMENTBlock
object contiene informazioni su un elemento di selezione, incluso lo stato della selezione.
È possibile scegliere il tipo di analisi da eseguire specificando ilFeatureTypes
elenco.
L'output viene restituito in un elenco diBlock
objects.
AnalyzeDocument
è un'operazione sincrona. Per analizzare i documenti in modo asincrono, utilizzareStartDocumentAnalysis.
Per ulteriori informazioni, consultaAnalisi del testo dei documenti.
Sintassi della richiesta
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"FeatureTypes": [ "string
" ],
"HumanLoopConfig": {
"DataAttributes": {
"ContentClassifiers": [ "string
" ]
},
"FlowDefinitionArn": "string
",
"HumanLoopName": "string
"
}
}
Parametri della richiesta
La richiesta accetta i seguenti dati in formato JSON.
- Document
-
Il documento di input come byte con codifica base64 o un oggetto Amazon S3. Se usi la CLI di AWS per chiamare le operazioni di Amazon Textract, non puoi passare byte immagine. Il documento deve essere un'immagine in formato JPEG, PNG, PDF o TIFF.
Se utilizzi un SDK AWS per chiamare Amazon Textract, potrebbe non essere necessario codificare in base a 64 byte immagine che vengono passati utilizzando il
Bytes
.Tipo: Document oggetto
: Sì
- FeatureTypes
-
Un elenco dei tipi di analisi da eseguire. Aggiungere TABLES all'elenco per restituire informazioni sulle tabelle rilevate nel documento di input. Aggiungi FORMS per restituire i dati del modulo rilevati. Per eseguire entrambi i tipi di analisi, aggiungere TABLES e FORMS a
FeatureTypes
. Tutte le righe e le parole rilevate nel documento sono incluse nella risposta (incluso il testo che non è correlato al valore diFeatureTypes
).Type: Gamma di stringhe
Valori validi:
TABLES | FORMS
: Sì
- HumanLoopConfig
-
Imposta la configurazione per il flusso di lavoro umano in loop per l'analisi dei documenti.
Tipo: HumanLoopConfig oggetto
: No
Sintassi della risposta
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"HumanLoopActivationOutput": {
"HumanLoopActivationConditionsEvaluationResults": "string",
"HumanLoopActivationReasons": [ "string" ],
"HumanLoopArn": "string"
}
}
Elementi di risposta
Se l'operazione riesce, il servizio restituisce una risposta HTTP 200.
I dati seguenti vengono restituiti in formato JSON mediante il servizio.
- AnalyzeDocumentModelVersion
-
La versione del modello utilizzata per analizzare il documento.
Type: Stringa
- Blocks
-
Gli elementi rilevati e analizzati da
AnalyzeDocument
.Type: Matrice diBlockoggetti
- DocumentMetadata
-
Metadati sul documento analizzato. Un esempio è il numero di pagine.
Tipo: DocumentMetadata oggetto
- HumanLoopActivationOutput
-
Mostra i risultati della valutazione umana nel ciclo.
Tipo: HumanLoopActivationOutput oggetto
Errori
- AccessDeniedException
-
Non sei autorizzato a eseguire l'operazione. Utilizzare l'ARN (Amazon Resource Name) di un utente autorizzato o un ruolo IAM per eseguire l'operazione.
Codice di stato HTTP: 400
- BadDocumentException
-
Amazon Textract non è in grado di leggere il documento. Per ulteriori informazioni sui limiti dei documenti in Amazon Textract, consultaLimiti rigidi per Amazon Textract.
Codice di stato HTTP: 400
- DocumentTooLargeException
-
Il documento non può essere elaborato perché è troppo grande. La dimensione massima dei documenti per operazioni sincrone 10 MB. La dimensione massima del documento per le operazioni asincrone è di 500 MB per i file PDF.
Codice di stato HTTP: 400
- HumanLoopQuotaExceededException
-
Indica che hai superato il numero massimo di flussi di lavoro di loop attivi disponibili
Codice di stato HTTP: 400
- InternalServerError
-
Amazon Textract ha riscontrato un problema del servizio. Riprova la chiamata.
Codice di stato HTTP: 500
- InvalidParameterException
-
Un parametro di input ha violato un vincolo. Ad esempio, nelle operazioni sincrone, un
InvalidParameterException
eccezione si verifica quando nessuno dei dueS3Object
oBytes
i valori sono forniti nelDocument
parametro della richiesta. Convalida il parametro prima di chiamare nuovamente l'operazione API.Codice di stato HTTP: 400
- InvalidS3ObjectException
-
Amazon Textract non è in grado di accedere all'oggetto S3 specificato nella richiesta. Per ulteriori informazioni,Configura l'accesso ad Amazon S3Per informazioni sulla risoluzione dei problemi, consultaRisoluzione dei problemi Amazon S3
Codice di stato HTTP: 400
- ProvisionedThroughputExceededException
-
Il numero di richieste ha superato il limite di throughput. Per aumentare questo limite, contatta Amazon Textract.
Codice di stato HTTP: 400
- ThrottlingException
-
Amazon Textract non è temporaneamente in grado di elaborare la richiesta. Riprova la chiamata.
Codice di stato HTTP: 500
- UnsupportedDocumentException
-
Il formato del documento di input non è supportato. I documenti per le operazioni possono essere in formato PNG, JPEG, PDF o TIFF.
Codice di stato HTTP: 400
Vedi anche
Per ulteriori informazioni sull'utilizzo di questa API in uno degli SDK AWS specifici della lingua, consulta quanto segue: