¿Qué es el agente de actualización de Apache Spark para Amazon EMR? - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

¿Qué es el agente de actualización de Apache Spark para Amazon EMR?

Introducción

El agente de actualización de Apache Spark para Amazon EMR es una función de IA conversacional que acelera las actualizaciones de las versiones de Apache Spark para sus aplicaciones de EMR. Las actualizaciones tradicionales de Spark requieren meses de esfuerzo de ingeniería para analizar los cambios en la API, resolver los conflictos de dependencia y validar la corrección funcional. El agente simplifica el proceso de actualización mediante indicaciones en lenguaje natural, la transformación automática del código y la validación de la calidad de los datos.

Puede usar el agente para actualizar PySpark y escalar las aplicaciones que se ejecutan en Amazon EMR EC2 y Amazon EMR Serverless. El agente analiza el código, identifica los cambios necesarios y realiza transformaciones automatizadas, a la vez que mantiene el control de aprobación de todas las modificaciones.

Información general de la arquitectura

El agente de actualización tiene tres componentes principales: cualquier asistente de IA compatible con MCP en su entorno de desarrollo para la interacción, el proxy MCP AWS que gestiona la comunicación segura entre el cliente y el servidor MCP, y el servidor MCP gestionado por Amazon SageMaker Unified Studio (en versión preliminar), que proporciona herramientas de actualización de Spark especializadas para Amazon EMR. Este diagrama ilustra cómo interactúa con el servidor MCP gestionado por Amazon SageMaker Unified Studio a través de su asistente de IA.

Agente de actualización de Apache Spark

El asistente de IA organizará la actualización mediante las herramientas especializadas proporcionadas por el servidor MCP siguiendo estos pasos:

  1. Planificación: el agente analiza la estructura del proyecto y genera o revisa un plan de actualización que guía el proceso de actualización de end-to-end Spark.

  2. Compila y crea: el agente actualiza el entorno de compilación y las dependencias, compila el proyecto y corrige de forma iterativa los errores de compilación y prueba.

  3. Herramientas de edición de código de Spark: el agente aplica actualizaciones de código específicas para resolver las incompatibilidades de las versiones de Spark y corrige los errores de tiempo de compilación y tiempo de ejecución.

  4. Ejecución y validación: el agente envía los trabajos de validación remota a EMR, supervisa la ejecución y los registros y corrige de forma iterativa los problemas de tiempo de ejecución y calidad de los datos.

  5. Observabilidad: el agente realiza un seguimiento del progreso de la actualización mediante las herramientas de observabilidad de EMR y permite a los usuarios ver los análisis y el estado de las actualizaciones en cualquier momento.

Consulte la lista de Uso de las herramientas de actualización de Spark las principales herramientas para cada paso.