Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
DetectDocumentText
Rileva il testo nel documento di input. Amazon Textract è in grado di rilevare le righe di testo e le parole che costituiscono una riga di testo. Il documento di input deve essere un'immagine in formato JPEG, PNG, PDF o TIFF.DetectDocumentText
restituisce il testo rilevato in una matrice diBlockoggetti.
Ogni pagina del documento ha come associatoBlock
di tipo PAGE. Ogni PAGINABlock
object è il padre di LINEBlock
oggetti che rappresentano le righe del testo rilevato in una pagina. RIGA DIBlock
object è un genitore per ogni parola che compone la riga. Le parole sono rappresentate daBlock
oggetti di tipo WORD.
DetectDocumentText
è un'operazione sincrona. Per analizzare i documenti in modo asincrono, utilizzareStartDocumentTextDetection.
Per ulteriori informazioni, consultaRilevamento del documento.
Sintassi della richiesta
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
}
}
Parametri della richiesta
La richiesta accetta i seguenti dati in formato JSON.
- Document
-
Il documento di input come byte con codifica base64 o un oggetto Amazon S3. Se usi la CLI di AWS per chiamare le operazioni di Amazon Textract, non puoi passare byte immagine. Il documento deve essere un'immagine in formato JPEG o PNG.
Se utilizzi un SDK AWS per chiamare Amazon Textract, potrebbe non essere necessario codificare in base a 64 byte immagine che vengono passati utilizzando il
Bytes
.Tipo: Document oggetto
Campo obbligatorio: Sì
Sintassi della risposta
{
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DetectDocumentTextModelVersion": "string",
"DocumentMetadata": {
"Pages": number
}
}
Elementi di risposta
Se l'operazione riesce, il servizio restituisce una risposta HTTP 200.
I dati seguenti vengono restituiti in formato JSON mediante il servizio.
- Blocks
-
Una matrice di
Block
oggetti che contengono il testo rilevato nel documento.Type: Array diBlockoggetti
- DetectDocumentTextModelVersion
-
Type: Stringa
- DocumentMetadata
-
Metadati sul documento. Contiene il numero di pagine rilevate nel documento.
Tipo: DocumentMetadata oggetto
Errori
- AccessDeniedException
-
Non sei autorizzato a eseguire l'operazione. Utilizzare l'ARN (Amazon Resource Name) di un utente autorizzato o un ruolo IAM per eseguire l'operazione.
Codice di stato HTTP: 400
- BadDocumentException
-
Amazon Textract non è in grado di leggere il documento. Per ulteriori informazioni sui limiti dei documenti in Amazon Textract, consultaLimiti rigidi per Amazon Textract.
Codice di stato HTTP: 400
- DocumentTooLargeException
-
Il documento non può essere elaborato perché è troppo grande. La dimensione massima dei documenti per operazioni sincrone 10 MB. La dimensione massima del documento per le operazioni asincrone è di 500 MB per i file PDF.
Codice di stato HTTP: 400
- InternalServerError
-
Amazon Textract ha riscontrato un problema del servizio. Riprova la chiamata.
Codice di stato HTTP: 500
- InvalidParameterException
-
Un parametro di input ha violato un vincolo. Ad esempio, nelle operazioni sincrone, un
InvalidParameterException
eccezione si verifica quando nessuno dei dueS3Object
oBytes
i valori sono forniti nelDocument
parametro della richiesta. Convalida il parametro prima di chiamare nuovamente l'operazione API.Codice di stato HTTP: 400
- InvalidS3ObjectException
-
Amazon Textract non è in grado di accedere all'oggetto S3 specificato nella richiesta. Per ulteriori informazioni,Configura l'accesso a Amazon S3Per informazioni sulla risoluzione dei problemi, consultaRisoluzione dei problemi Amazon S3
Codice di stato HTTP: 400
- ProvisionedThroughputExceededException
-
Il numero di richieste ha superato il limite di throughput. Per aumentare questo limite, contatta Amazon Textract.
Codice di stato HTTP: 400
- ThrottlingException
-
Amazon Textract non è temporaneamente in grado di elaborare la richiesta. Riprova la chiamata.
Codice di stato HTTP: 500
- UnsupportedDocumentException
-
Il formato del documento di input non è supportato. I documenti per le operazioni possono essere in formato PNG, JPEG, PDF o TIFF.
Codice di stato HTTP: 400
Vedi anche
Per ulteriori informazioni sull'utilizzo di questa API in uno degli SDK AWS specifici della lingua, consulta quanto segue: