Análisis de documentos

Amazon Textract analiza documentos y formularios en busca de relaciones entre el texto detectado. Las operaciones de análisis de Amazon Textract devuelven 3 categorías de extracción de documentos: texto, formularios y tablas. El análisis de facturas y recibos se gestiona mediante un proceso diferente; para obtener más información, consulteAnálisis de facturas y recibos.

Extracción de texto

Texto sin procesar extraído de un documento. Para obtener más información, consulteLíneas y palabras de texto.

Extraction de formularios

Los datos del formulario están vinculados a elementos de texto extraídos de un documento. Amazon Textract representa los datos de formulario como pares clave-valor. En el siguiente ejemplo, una de las líneas de texto detectadas por Amazon Textract esName: Jane Doe. Amazon Textract Texact también identifica una clave (Name:) y un valor (Jane Doe). Para obtener más información, consulteDatos de formulario (pares clave-valor).

Name: Jane Doe

Address: 123 Any Street, Anytown, Estados Unidos

Fecha de nacimiento: 12-26-09-1980

Los pares clave-valor también se utilizan para representar casillas de verificación o botones de opción (botones de opción) que se extraen de los formularios.

male:☑

Para obtener más información, consulteElementos de selección.

Extraction de tablas

Amazon Texact puede extraer tablas, celdas de tabla y elementos de celdas de tabla y puede programarse para devolver los resultados en un archivo JSON, .csv o un archivo.txt.

Nombre	Dirección
Ana Carolina	Cualquier Ciudad 123

Para obtener más información, consulte Tablas. Los elementos de selección también se pueden extraer de las tablas. Para obtener más información, consulteElementos de selección.

Para los artículos analizados, Amazon Textract devuelve lo siguiente en variosBlockobjects:

Las líneas y palabras del texto detectado
El contenido de los elementos detectados
Relación entre los elementos detectados
Página en la que se ha detectado el elemento
Ubicación del elemento en la página del documento

Puede utilizar operaciones síncronas o asíncronas para analizar el texto de un documento. Para analizar el texto de forma sincrónica, utilice elAnalyzeDocumenty pasar un documento como entrada.AnalyzeDocumentdevuelve todo el conjunto de resultados. Para obtener más información, consulte Análisis del texto del documento con Amazon Textract.

Para detectar texto de forma asíncrona, utiliceStartDocumentAnalysispara empezar a procesar. Para obtener los resultados, llameGetDocumentAnalysis. Los resultados se devuelven en una o más respuestas deGetDocumentAnalysis. Para obtener más información y un ejemplo, consulte Detección o análisis de texto en un documento de varias páginas.

Para especificar qué tipo de análisis se va a realizar, puede utilizar elFeatureTypesparámetro de entrada de lista. Agregue TABLES a la lista para devolver información sobre las tablas detectadas en el documento de entrada, por ejemplo, celdas de tabla, texto de celda y elementos de selección de celdas. Agregue FORMULARIOS para devolver relaciones de palabras, como pares clave-valor y elementos de selección. Para realizar ambos tipos de análisis, agregue TABLAS y FORMS aFeatureTypes.

Todas las líneas y palabras detectadas en el documento se incluyen en la respuesta (incluido el texto no relacionado con el valor deFeatureTypes).

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Detección de texto

Análisis de facturas y recibos