Block - Amazon Textract

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Block

UNABlockrepresenta elementos que se reconocen en un documento dentro de un grupo de píxeles cerca uno del otro. La información devuelta en unBlockdepende del tipo de operación. Detección de texto para documentos (por ejemploDetectDocumentText), obtendrá información sobre las palabras y líneas de texto detectadas. En el análisis de texto (por ejemploAnalyzeDocument), también puede obtener información sobre los campos, tablas y elementos de selección detectados en el documento.

Una matriz deBlocklos objetos se devuelven mediante operaciones síncronas y asíncronas. En operaciones sincrónicas, tales comoDetectDocumentText, la matriz deBlockobjetos es todo el conjunto de resultados. En operaciones asíncronas, tales comoGetDocumentAnalysis, la matriz se devuelve a lo largo de una o más respuestas.

Para obtener más información, consulteFuncionamiento de Amazon Textract.

Contenido

BlockType

El tipo de elemento de texto que se reconoce. En las operaciones de detección de texto, se devuelven los siguientes tipos:

  • PÁGINA- Contiene una lista de la líneaBlockobjetos detectados en una página de documento.

  • PALABRA- Palabra detectada en una página de documento. Una palabra consta de uno o varios caracteres en alfabeto latino básico ISO que no están separados por espacios.

  • LÍNEA- Una cadena de palabras contiguas delimitadas por tabuladores que se detectan en una página de documento.

En las operaciones de análisis de texto, se devuelven los siguientes tipos:

  • PÁGINA- Contiene una lista de niñosBlockobjetos detectados en una página de documento.

  • KEY_VALUE_SET- Almacena la CLAVE y el VALORBlockobjetos para texto vinculado que se detecta en una página de documento. UsarEntityTypepara determinar si un objeto KEY_VALUE_SET es KEYBlockobjeto o VALUEBlockobjeto.

  • PALABRA- Palabra que se detecta en una página de documento. Una palabra consta de uno o varios caracteres en alfabeto latino básico ISO que no están separados por espacios.

  • LÍNEA- Una cadena de palabras contiguas delimitadas por tabuladores que se detectan en una página de documento.

  • TABLA- Tabla que se detecta en una página de documento. Una tabla es información basada en cuadrícula con dos o más filas o columnas, con un rango de celdas de una fila y una columna cada una.

  • CELDA- Una celda dentro de una tabla detectada. La celda es el padre del bloque que contiene el texto de la celda.

  • SELECTION_ELEMENT- Elemento de selección, como un botón de opción (botón de opción) o una casilla de verificación detectada en una página de documento. Utilice el valor deSelectionStatuspara determinar el estado del elemento de selección.

Type: Cadena

Valores válidos: KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT

Obligatorio: No

ColumnIndex

Columna en la que aparece una celda de tabla. La primera posición de columna es 1.ColumnIndexno es devuelto porDetectDocumentTextyGetDocumentTextDetection.

Type: Entero

Rango válido: Valor mínimo de 0.

Obligatorio: No

ColumnSpan

El número de columnas que abarca una celda de tabla. Actualmente, este valor es siempre 1, incluso si el número de columnas extendidas es mayor que 1.ColumnSpanno es devuelto porDetectDocumentTextyGetDocumentTextDetection.

Type: Entero

Rango válido: Valor mínimo de 0.

Obligatorio: No

Confidence

La puntuación de confianza que tiene Amazon Textract Texact en la exactitud del texto reconocido y la precisión de los puntos de geometría alrededor del texto reconocido.

Type: Float

Rango válido: Valor mínimo de 0. Valor máximo de 100.

Obligatorio: No

EntityTypes

El tipo de entidad. Se puede devolver lo siguiente:

  • CLAVE- Identificador de un campo del documento.

  • VALUE- El texto del campo.

EntityTypesno es devuelto porDetectDocumentTextyGetDocumentTextDetection.

Type: Matriz de cadenas

Valores válidos: KEY | VALUE

Obligatorio: No

Geometry

La ubicación del texto reconocido en la imagen. Incluye un cuadro delimitador grueso alineado con ejes que rodea el texto y un polígono de grano fino para obtener información espacial más precisa.

Tipo: objeto Geometry

Obligatorio: No

Id

Identificador del texto reconocido. El identificador solo es exclusivo para una sola operación.

Type: Cadena

Patrón: .*\S.*

Obligatorio: No

Page

Página en la que se ha detectado un bloque.Pagese devuelve mediante operaciones asíncronas. Los valores de página superiores a 1 solo se devuelven para documentos de varias páginas en formato PDF o TIFF. Una imagen escaneada (JPEG/PNG), aunque contenga varias páginas de documentos, se considera un documento de una sola página. El valor dePagees siempre 1. Las operaciones sincrónicas no regresanPageporque cada documento de entrada se considera un documento de una sola página.

Type: Entero

Rango válido: Valor mínimo de 0.

Obligatorio: No

Relationships

Lista de bloques secundarios del bloque actual. Por ejemplo, un objeto LINE tiene bloques secundarios para cada bloque WORD que forma parte de la línea de texto. No hay objetos Relationship en la lista para relaciones que no existen, como cuando el bloque actual no tiene bloques secundarios. El tamaño de la lista puede ser el siguiente:

  • 0 - El bloque no tiene bloques secundarios.

  • 1 - El bloque tiene bloques secundarios.

Type: Matriz deRelationshipobjects

Obligatorio: No

RowIndex

Fila en la que se encuentra una celda de tabla. La primera posición de la fila es 1.RowIndexno es devuelto porDetectDocumentTextyGetDocumentTextDetection.

Type: Entero

Rango válido: Valor mínimo de 0.

Obligatorio: No

RowSpan

El número de filas que abarca una celda de tabla. Actualmente, este valor es siempre 1, incluso si el número de filas extendidas es mayor que 1.RowSpanno es devuelto porDetectDocumentTextyGetDocumentTextDetection.

Type: Entero

Rango válido: Valor mínimo de 0.

Obligatorio: No

SelectionStatus

El estado de selección de un elemento de selección, como un botón de opción o una casilla de verificación.

Type: Cadena

Valores válidos: SELECTED | NOT_SELECTED

Obligatorio: No

Text

La palabra o línea de texto reconocida por Amazon Textract.

Type: Cadena

Obligatorio: No

TextType

El tipo de texto que Amazon Textract ha detectado. Puede comprobar si hay texto escrito a mano y texto impreso.

Type: Cadena

Valores válidos: HANDWRITING | PRINTED

Obligatorio: No

Véase también

Para obtener más información sobre el uso de esta API en un SDK de AWS de un lenguaje específico, consulte: