Fase de análisis

Al procesar archivos PDF, se extrae contenido que se puede utilizar para su posterior procesamiento y análisis. Por ejemplo, puede identificar las tendencias de los costes utilizando los campos de costes de los informes de operaciones diarios o generar información mediante la agregación de los indicadores clave de rendimiento (KPIs) de las operaciones empresariales. También puede combinar el contenido extraído con otras fuentes de datos, como lagos de datos, almacenes de datos, datos de terceros o datos de gestión de relaciones con los clientes (CRM) para realizar análisis empresariales exhaustivos.

Amazon QuickSight es un servicio de inteligencia empresarial sin servidor que se conecta al depósito de Amazon Simple Storage Service (Amazon S3) que contiene los datos extraídos del archivo PDF. Luego, sus analistas de negocios pueden crear un panel para analizar, visualizar y generar información directamente a partir de los archivos JSON del depósito de S3. El panel se conecta al depósito de S3 y se actualiza automáticamente después de procesar nuevos archivos PDF. También puede compartir el panel con diferentes usuarios y los usuarios también pueden suscribirse al panel para verlo en un dispositivo móvil. Para obtener más información al respecto, consulte Creación de un conjunto de datos con archivos de Amazon S3 en la QuickSight documentación de Amazon.

La mayoría de los archivos PDF también contienen texto enriquecido dentro de formularios y tablas o en un párrafo de texto libre. Una vez extraído el contenido del texto, el contenido de texto enriquecido puede ser utilizado por otros servicios de inteligencia AWS artificial y aprendizaje automático (AI/ML) que pueden gestionar el procesamiento del lenguaje natural (NLP), como Amazon Comprehend o Amazon Translate. También puede usar Amazon Kendra para indexar y buscar documentos extraídos de una gran base de datos de archivos PDF.

Sus científicos de datos e ingenieros de aprendizaje automático también pueden usar Amazon SageMaker AI para acceder directamente a los datos extraídos en el bucket de S3 o en la tabla de Amazon DynamoDB y, a continuación, implementar modelos y predicciones de aprendizaje automático avanzados.

Prácticas recomendadas para la fase de análisis

Puede utilizar las dos mejores prácticas siguientes para garantizar el éxito de la fase de análisis:

Cree un archivo de manifiesto para utilizar un bucket de S3 como fuente de datos QuickSight. Para obtener más información al respecto, consulte Crear un análisis con sus propios datos de Amazon S3 en la QuickSight documentación.
Actualice automáticamente su conjunto de datos para capturar cualquier dato nuevo que se añada a Amazon S3 y actualice su panel de control. Para obtener más información al respecto, consulte Actualizar un conjunto de datos según un cronograma en la QuickSight documentación.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Fase de almacenamiento de datos

Preguntas frecuentes