División de documentos al usar proyectos - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

División de documentos al usar proyectos

Automatización de Datos de Amazon Bedrock (BDA) permite dividir documentos cuando se utiliza la API Amazon Bedrock. Cuando está habilitada, la división permite a BDA tomar un PDF que contiene varios documentos lógicos y dividirlo en documentos independientes para su procesamiento.

Una vez finalizada la división, cada segmento del documento dividido se procesa de forma independiente. Esto significa que un documento de entrada puede contener diferentes tipos de documentos. Por ejemplo, si tiene un PDF que contiene tres extractos bancarios y un formulario W2, al activar la división se intentaría dividirlo en cuatro documentos independientes que se procesarían de forma individual.

La división automática de BDA admite archivos de hasta 3000 páginas y admite documentos individuales de hasta 20 páginas cada uno.

La opción de dividir documentos está desactivada de forma predeterminada, pero se puede activar cuando se utiliza la API. A continuación, se muestra un ejemplo de cómo crear un proyecto con el divisor activado. Los puntos suspensivos representan esquemas adicionales proporcionados al proyecto.

response = client.create_data_automation_project( projectName=project_name, projectDescription="Provide a project description", projectStage='LIVE', standardOutputConfiguration=output_config, customOutputConfiguration={ 'blueprints': [ { 'blueprintArn': Blueprint ARN, 'blueprintStage': 'LIVE' }, ... ] }, overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}} )

La parte que permite el proceso de división es la línea overrideConfiguration. Esta línea configura el divisor y permite pasar varios documentos dentro del mismo archivo.

Los documentos se dividen según los límites semánticos del documento.

La división de los documentos se produce independientemente de la aplicación de los esquemas, y los documentos que se dividan se corresponderán con el esquema más cercano. Para obtener más información sobre cómo BDA realiza la correspondencia de esquemas, consulte Descripción de la correspondencia de esquemas .

Descripción de la correspondencia de esquemas

La correspondencia de esquemas se basa en los siguientes elementos:

  • Nombre del esquema

  • Descripción del esquema

  • Campos del esquema

Al procesar documentos, puede proporcionar varios esquemas con los que realizar una correspondencia. Esto permite procesar diferentes tipos de documentos con los esquemas adecuados. Puede proporcionar varios identificadores de esquemas al invocar la API de automatización de datos, y BDA intentará hacer coincidir cada documento con el esquema que mejor se adapte. Esto permite procesar tipos de documentos mixtos en un único lote. Esto resulta útil cuando se espera que los documentos sean de diferentes tipos (por ejemplo, extractos bancarios, facturas o pasaportes).

Si necesita esquemas distintos porque los formatos de los documentos son muy diferentes o requieren peticiones especializadas, crear un esquema por tipo de documento puede ayudar a establecer una correspondencia. Para obtener más información sobre cómo crear esquemas útiles, consulte Prácticas recomendadas para crear esquemas.

Prácticas recomendadas para crear esquemas

Siga las prácticas recomendadas que se indican a continuación para sacar el máximo partido de sus esquemas:

  • Sea explícito y detallado en los nombres y descripciones de los esquemas para facilitar la correspondencia.

  • Al proporcionar varios esquemas pertinentes, BDA puede seleccionar el que mejor se ajuste. Cree esquemas distintos para formatos de documentos muy diferentes.

  • Considere la posibilidad de crear esquemas especializados para cada proveedor u origen de documentos, si necesita la máxima precisión.

  • No incluya dos esquemas del mismo tipo en un proyecto (por ejemplo, dos esquemas de W2). La información del propio documento y del esquema se utiliza para procesar los documentos, y si se incluyen varios esquemas del mismo tipo en un proyecto, se reducirá el rendimiento.

Gracias a la división de documentos y la correspondencia de varios esquemas, BDA puede gestionar con mayor flexibilidad conjuntos de documentos variados y, al mismo tiempo, aplicar la lógica de extracción más adecuada a cada documento.