Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
La salida estándar para documentos le permite establecer la granularidad de la respuesta que le interesa, así como establecer el formato de salida y el formato de texto en la salida. A continuación se muestran algunas de las salidas que puede activar.
Granularidad de la respuesta
La granularidad de la respuesta determina el tipo de respuesta que desea recibir de la extracción del texto del documento. Cada nivel de granularidad proporciona respuestas cada vez más separadas: la página proporciona todo el texto extraído en conjunto y la palabra proporciona cada palabra como una respuesta independiente. Los niveles de granularidad disponibles son:
-
Granularidad a nivel de página: está habilitada de forma predeterminada. La granularidad a nivel de página proporciona cada página del documento en el formato de salida de texto que elija.
-
Granularidad a nivel de elemento (diseño): está habilitada de forma predeterminada. Proporciona el texto del documento en el formato de salida que elija, separado en diferentes elementos. Estos elementos, como figuras, tablas o párrafos. Se devuelven en un orden de lectura lógico en función de la estructura del documento.
-
Granularidad a nivel de palabra: proporciona información sobre palabras individuales sin utilizar un análisis de contexto más amplio. Le proporciona cada palabra y su ubicación en la página.
Ajustes de salida
La configuración de salida determina la forma en que se estructurarán los resultados descargados. Las opciones de configuración de salida son:
-
JSON: la estructura de salida predeterminada para el análisis de documentos. Proporciona un archivo de salida JSON con la información de los ajustes de configuración.
-
Archivos JSON+: al usar esta configuración, se genera una salida JSON y archivos que se corresponden con diferentes salidas. Por ejemplo, esta configuración proporciona un archivo de texto para la extracción general del texto, un archivo Markdown para el texto con Markdown estructural y archivos CSV para cada tabla que se encuentre en el texto.
Formato de texto
El formato de texto determina los diferentes tipos de textos que se proporcionarán mediante diversas operaciones de extracción. Puede seleccionar cualquier número de las siguientes opciones para el formato de texto.
-
Texto sin formato: esta configuración proporciona una salida de solo texto sin incluir ningún elemento de formato o de marcado.
-
Texto con anotaciones: la configuración de salida predeterminada para la salida estándar. Proporciona texto con elementos de marcado integrados.
-
Texto con HTML: proporciona texto con elementos HTML integrados en la respuesta.
-
CSV: proporciona una salida estructurada en CSV para las tablas del documento. Esto solo dará una respuesta para las tablas y no para otros elementos del documento.
Cuadros delimitadores y campos generativos
En el caso de los documentos, hay dos opciones de respuesta que cambian su salida en función de la granularidad seleccionada. Se trata de cuadros delimitadores y campos generativos. Si seleccionas los cuadros delimitadores, obtendrás un esquema visual del elemento o la palabra en la que hayas hecho clic en el menú desplegable de respuestas de la consola. Esto te permite localizar con mayor facilidad determinados elementos de tu respuesta. Los cuadros delimitadores se muestran en tu JSON como las coordenadas de las cuatro esquinas del cuadro.
Al seleccionar los campos generativos, se genera un resumen del documento, tanto en versión de 10 palabras como de 250 palabras. A continuación, si selecciona elementos como granularidad de respuesta, genera un título descriptivo de cada figura detectada en el documento. Las figuras incluyen elementos como tablas, gráficos e imágenes.
Respuesta documental de Bedrock Data Automation
Esta sección se centra en los diferentes objetos de respuesta que se reciben al ejecutar la operación de la API InvokeDataAutomation en un archivo de documento. A continuación, desglosaremos cada sección del objeto de respuesta y, a continuación, veremos una respuesta completa y completa para un documento de ejemplo. La primera sección que recibiremos esmetadata
.
"metadata":{
"logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
"semantic_modality":"DOCUMENT",
"s3_bucket":"bucket",
"s3_prefix":"prefix"
},
La primera sección anterior proporciona una descripción general de los metadatos asociados al documento. Junto con la información del S3, en esta sección también se indica qué modalidad se seleccionó para su respuesta.
"document":{
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"description":"document text",
"summary":"summary text",
"statistics":{
"element_count":5,
"table_count":1,
"figure_count":1,
"word_count":1000,
"line_count":32
}
},
La sección anterior proporciona información de granularidad a nivel de documento. Las secciones de descripción y resumen son los campos generados en función del documento. La sección de representación proporciona el contenido real del documento con varios estilos de formato. Por último, las estadísticas contienen información sobre el contenido real del documento, como cuántos elementos semánticos hay, cuántas figuras, palabras, líneas, etc.
Esta es la información de una entidad de tabla. Además de la información de ubicación, los diferentes formatos del texto, las tablas y el orden de lectura, devuelven específicamente información csv e imágenes recortadas de la tabla en cubos de S3. La información del CSV muestra los distintos encabezados, pies de página y títulos. Las imágenes se enviarán al segmento s3 del prefijo establecido en la solicitud InvokeDataAutomationAsync
{
"id":"entity_id",
"type":"TEXT",
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"reading_order":2,
"page_indices":[
0
],
"locations":[
{
"page_index":0,
"bounding_box":{
"left":0.0,
"top":0.0,
"width":0.05,
"height":0.5
}
}
],
"sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},
Esta es la entidad que se utiliza para el texto de un documento y se indica mediante la TYPE
línea de la respuesta. Una vez más, la representación muestra el texto en diferentes formatos. reading_order
muestra cuándo un lector vería el texto de forma lógica. Se trata de un orden semántico basado en las claves y valores asociados. Por ejemplo, asocia los títulos de los párrafos con sus respectivos párrafos en orden de lectura. page_indices
te indica en qué páginas se encuentra el texto. La siguiente es la información de ubicación, con un cuadro delimitador de texto si se activó en respuesta. Por último, tenemos el subtipo de entidad. Este subtipo proporciona información más detallada sobre el tipo de texto que se está detectando. Para obtener una lista completa de los subtipos, consulta la referencia de la API.
{
"id":"entity_id",
"type":"TABLE",
"representation":{
"html":"table.../table",
"markdown":"| header | ...",
"text":"header \t header",
"csv":"header, header, header\n..."
},
"csv_s3_uri":"s3://",
"headers":[
"date",
"amount",
"description",
"total"
],
"reading_order":3,
"title":"Title of the table",
"footers":[
"the footers of the table"
],
"crop_images":[
"s3://bucket/prefix.png",
"s3://bucket/prefix.png"
],
"page_indices":[
0,
1
],
"locations":[
{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
},
{
"page_index":1,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
]
},
Esta es la información de una entidad de tabla. Además de la información de ubicación, los diferentes formatos del texto, las tablas y el orden de lectura, devuelven específicamente información csv e imágenes recortadas de la tabla en cubos de S3. La información del CSV muestra los distintos encabezados, pies de página y títulos. Las imágenes se enviarán al segmento s3 del prefijo establecido en la solicitud. InvokeDataAutomation
{
"id":"entity_id",
"type":"FIGURE",
"summary":"",
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"crop_images":[
"s3://bucket/prefix.png",
"s3://bucket/prefix.png"
],
"locations":[
{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
],
"sub_type":"CHART",
"title":"figure title",
"rai_flag":"APPROVED/REDACTED/REJECTED",
"reading_order":1,
"page_indices":[
0
]
}
,
Esta es la entidad que se utiliza para las figuras, por ejemplo, en los gráficos y tablas de los documentos. Al igual que en las tablas, estas figuras se recortarán y las imágenes se enviarán al compartimento s3 establecido con el prefijo. Además, recibirás una sub_type
respuesta con el título de una figura para el texto del título y una indicación del tipo de figura que es.
"pages":[
{
"id":"page_id",
"page_index":0,
"detected_page_number":1,
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"statistics":{
"element_count":5,
"table_count":1,
"figure_count":1,
"word_count":1000,
"line_count":32
},
"asset_metadata":{
"rectified_image":"s3://bucket/prefix.png",
"rectified_image_width_pixels":1700,
"rectified_image_height_pixels":2200
}
}
],
La última de las entidades que extraemos mediante la salida estándar es Pages. Las páginas son las mismas que las entidades de texto, pero además contienen números de página, cuyo número de página detectado está en la página.
"text_lines":[
{
"id":"line_id",
"text":"line text",
"reading_order":1,
"page_index":0,
"locations":{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
}
],
"text_words":[
{
"id":"word_id",
"text":"word text",
"line_id":"line_id",
"reading_order":1,
"page_index":0,
"locations":{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
}
]
Estos dos últimos elementos son para partes de texto individuales. La granularidad a nivel de palabra devuelve una respuesta para cada palabra, mientras que el resultado predeterminado solo muestra líneas de texto.
Restricciones de procesamiento de documentos BDA
BDA admite documentos en los formatos de archivo PDF, JPEG y PNG. Los documentos deben tener menos de 200 MB para que los procese la consola o 500 MB cuando los procese la API. Los documentos individuales no pueden superar las 20 páginas, aunque si se habilita la división de documentos, se pueden enviar archivos de hasta 1000 páginas. A continuación se indican otras restricciones de documentos.