Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Fase de almacenamiento de datos
Como el contenido del archivo PDF suele incluir formularios (pares clave-valor), tablas y texto libre, el archivo JSON debe incluir pares clave-valor anidados para representar la estructura del archivo PDF y almacenar los datos extraídos. Los archivos PDF son datos no estructurados o semiestructurados, lo que significa que no tienen un esquema fijo. Esto significa que puede resultar difícil almacenar el contenido de los archivos PDF en una base de datos SQL tradicional. Sin embargo, una base de datos NoSQL es ideal para almacenar el contenido de los archivos PDF porque no requiere un esquema predefinido. Una vez extraído y posprocesado el contenido del archivo PDF, puede almacenarlo como un registro para cada archivo PDF de una tabla de Amazon DynamoDB.
Se recomienda almacenar los datos finales extraídos como un archivo JSON en Amazon Simple Storage Service (Amazon S3) y como un registro en una tabla de DynamoDB. Sus aplicaciones de procesamiento y análisis posteriores pueden hacer referencia fácilmente a los archivos JSON en Amazon S3. Por ejemplo, pueden usar Amazon S3 como fuente de datos para crear modelos de aprendizaje automático en Amazon SageMaker AI, consultar directamente el archivo JSON con Amazon Athena o usar Amazon S3 como fuente de datos para Amazon. QuickSight Se puede acceder fácilmente al contenido de los archivos PDF extraídos y almacenado en las tablas de DynamoDB con baja latencia a cualquier escala, lo que hace que este enfoque sea adecuado para utilizarlo como base de datos de back-end para consultas y digitalización.
Prácticas recomendadas para la fase de almacenamiento de datos
Utilice las dos mejores prácticas siguientes para garantizar una fase de almacenamiento de datos exitosa:
-
Asegúrese de almacenar el archivo JSON final en Amazon S3 en una carpeta de salida diferente y utilice un nombre basado en el tipo de archivo PDF.
-
DynamoDB utiliza una clave principal para identificar de forma exclusiva cada elemento de una tabla. La clave principal puede ser una clave única (por ejemplo, una clave de partición) o una clave compuesta (por ejemplo, una clave de partición y una clave de clasificación). Para la clave principal de esta solución, le recomendamos que utilice un identificador de archivo PDF único (por ejemplo, el nombre del archivo PDF) como clave de partición o una combinación de dos identificadores (por ejemplo, fecha y nombre del almacén) como clave de partición y clave de clasificación. Para obtener más información al respecto, consulte Componentes principales de Amazon DynamoDB en la documentación de Amazon DynamoDB.