GetDocumentAnalysis - Amazon Textract

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

GetDocumentAnalysis

Obtiene los resultados de una operación asíncrona de Amazon Textract Texact que analiza el texto de un documento.

Para iniciar un análisis de texto asíncrono, llama aStartDocumentAnalysis, que devuelve un identificador de trabajo (JobId). Cuando finaliza la operación de análisis de texto, Amazon Textract Texact publica un estado de finalización en el tema de Amazon Simple Notification Service (Amazon SNS) registrado en la llamada inicial aStartDocumentAnalysis. Para obtener los resultados de la operación de detección de texto, compruebe primero que el valor de estado publicado en el tema de Amazon SNS esSUCCEEDED. Si es así, llameGetDocumentAnalysisy pasa el identificador de trabajo (JobId) desde la llamada inicial hastaStartDocumentAnalysis.

GetDocumentAnalysisdevuelve una matriz deBlockobjetos. Se devuelven los siguientes tipos de información:

  • Datos del formulario (pares de clave-valor). La información relacionada se devuelve en dos.Blockobjetos, cada uno de tipoKEY_VALUE_SET: una LLAVEBlockobjeto y un VALORBlockobjeto. Por ejemplo,Name: Ana Silva Carolinacontiene una clave y un valor. Name:es la clave. Ana Silva Carolinaes el valor.

  • Datos de celdas de tabla y tabla. UNA MESABlockcontiene información sobre una tabla detectada. UNA CELDABlockse devuelve para cada celda de una tabla.

  • Líneas y palabras de texto. UNA LÍNEABlockun objeto contiene uno o varios WORDBlockobjetos. Se devuelven todas las líneas y palabras detectadas en el documento (incluido el texto que no tiene relación con el valor delStartDocumentAnalysis FeatureTypesparámetro de entrada).

Los elementos de selección, tales como casillas de verificación y botones de opción (botones de opción) se pueden detectar en los datos del formulario y en las tablas. A SELECTION_ELEMENTBlockcontiene información sobre un elemento de selección, incluido el estado de selección.

UsarMaxResultspara limitar el número de bloques devueltos. Si hay más resultados de los especificados enMaxResults, el valor deNextTokenen la respuesta de la operación contiene un token de paginación para obtener el siguiente conjunto de resultados. Para obtener la siguiente página de resultados, llame aGetDocumentAnalysis, y rellénelaNextTokenparámetro request con el valor de token que se devuelve de la llamada anterior aGetDocumentAnalysis.

Para obtener más información, consulteAnálisis de texto de documentos.

Sintaxis de la solicitud

{ "JobId": "string", "MaxResults": number, "NextToken": "string" }

Parámetros de solicitud

La solicitud acepta los siguientes datos en formato JSON.

JobId

Un identificador único del trabajo de detección de texto. LaJobIdse devuelve desdeStartDocumentAnalysis. UNAJobIdEl valor solo es válido durante 7 días.

Type: Cadena

Restricciones de longitud: Longitud mínima de 1. La longitud máxima es 64.

Patrón: ^[a-zA-Z0-9-_]+$

Obligatorio: Sí

MaxResults

El número máximo de resultados que devolver por llamada paginada. El valor mayor que puede especificar es 1,000. Si especifica un valor superior a 1 000, se devolverá un máximo de 1 000 resultados. El valor predeterminado es 1,000.

Type: Entero

Rango válido: Valor mínimo de 1.

Obligatorio: No

NextToken

Si la respuesta anterior estaba incompleta (porque hay más bloques que recuperar), Amazon Texact devuelve un token de paginación en la respuesta. Puede utilizar este token de paginación para recuperar el siguiente conjunto de bloques.

Type: Cadena

Restricciones de longitud: Longitud mínima de 1. La longitud máxima es de 255 caracteres.

Patrón: .*\S.*

Obligatorio: No

Sintaxis de la respuesta

{ "AnalyzeDocumentModelVersion": "string", "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DocumentMetadata": { "Pages": number }, "JobStatus": "string", "NextToken": "string", "StatusMessage": "string", "Warnings": [ { "ErrorCode": "string", "Pages": [ number ] } ] }

Elementos de respuesta

Si la acción se realiza correctamente, el servicio devuelve una respuesta HTTP 200.

El servicio devuelve los datos siguientes en formato JSON.

AnalyzeDocumentModelVersion

Type: Cadena

Blocks

Los resultados de la operación de análisis de texto.

Type: Matriz deBlockobjects

DocumentMetadata

Información sobre un documento que Amazon Textract procesó.DocumentMetadatase devuelve en cada página de respuestas paginadas de una operación de vídeo de Amazon Textract Texact.

Tipo: objeto DocumentMetadata

JobStatus

El estado actual del trabajo de detección de texto.

Type: Cadena

Valores válidos: IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS

NextToken

Si la respuesta se trunca, Amazon Textract devuelve este token. Puede utilizar este token en la solicitud subsiguiente para recuperar el siguiente conjunto de resultados de detección de texto.

Type: Cadena

Restricciones de longitud: Longitud mínima de 1. La longitud máxima es de 255 caracteres.

Patrón: .*\S.*

StatusMessage

Devuelve si el trabajo de detección no se ha podido completar. Contiene explicación de qué error se ha producido.

Type: Cadena

Warnings

Lista de advertencias que se produjeron durante la operación de análisis de documentos.

Type: Matriz deWarningobjects

Errores

AccessDeniedException

No tiene autorización para realizar la acción. Utilice el nombre de recurso de Amazon (ARN) de un usuario autorizado o un rol de IAM para realizar la operación.

Código de estado HTTP: 400

InternalServerError

Amazon Textract ha tenido un problema de servicio. Pruebe la llamada de nuevo.

Código de estado HTTP: 500

InvalidJobIdException

Se ha pasado un identificador de trabajo no válido aGetDocumentAnalysiso paraGetDocumentAnalysis.

Código de estado HTTP: 400

InvalidKMSKeyException

Indica que no tiene permisos de descifrado con la clave KMS introducida o que la clave KMS se ha introducido de forma incorrecta.

Código de estado HTTP: 400

InvalidParameterException

Un parámetro de entrada infringió una restricción. Por ejemplo, en operaciones sincrónicas, unInvalidParameterExceptionse produce cuando ninguno de losS3ObjectoByteslos valores se proporcionan en elDocumentparámetro de solicitud. Valide el parámetro antes de llamar a la operación de la API de nuevo.

Código de estado HTTP: 400

InvalidS3ObjectException

Amazon Textract Texact no puede obtener acceso al objeto de S3 especificado en la solicituda. para obtener más información,Configurar el acceso a Amazon S3Para obtener información sobre la resolución de problemas, consulteSolución de problemas de Amazon S3

Código de estado HTTP: 400

ProvisionedThroughputExceededException

El número de solicitudes ha superado su límite de rendimiento. Si quieres aumentar este límite, ponte en contacto con Amazon Textract.

Código de estado HTTP: 400

ThrottlingException

Amazon Textract Texact no puede procesar temporalmente la solicitud. Pruebe la llamada de nuevo.

Código de estado HTTP: 500

Véase también

Para obtener más información sobre el uso de esta API en un SDK de AWS de un lenguaje específico, consulte: