Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
AWS Gluepara Ray (versión preliminar)
AWS Glueen Ray se encuentra en versión preliminar paraAWS Glue, por lo que está sujeto a cambios. |
Ray es un marco de computación distribuida de código abierto que se puede utilizar para escalar verticalmente las cargas de trabajo, con un enfoque en Python. Para obtener información sobre Ray, consulte el sitio web de Ray
Temas
- ¿Qué hayAWS Glue para Ray?
- AWS Gluepara Ray y otros motores
- :::::::::::AWS Glue
- Uso de los parámetros de trabajo en los trabajos de Ray
- Uso de bibliotecas de Python con trabajos de Ray
- Conexión a los datos de los trabajos de Ray
- Solución de problemas de trabajos de Ray a partir de registros
- Supervisión de trabajos de Ray con métricas
¿Qué hayAWS Glue para Ray?
Puede usar en RayAWS Glue para escribir scripts de Python para cálculos que se ejecutarán en parallel en varias máquinas. En los trabajos y sesiones interactivas de Ray, puede utilizar los conjuntos de datos de Ray con bibliotecas de Python conocidas, como pandas, distribuidas por Modin, y AWS SDK para pandas (awswrangler), para facilitar la escritura y la ejecución de los flujos de trabajo. Para obtener más información sobre los conjuntos de datos de Ray, consulte Conjuntos de datos de Ray
Cuando utilizaAWS Glue en Ray, puede ejecutar los flujos de trabajo de pandas con macrodatos a escala empresarial, con solo algunas líneas de código. Puede crear un informe desde la consola de AWS Glue o AWS SDK. También puede abrir una sesión interactiva de AWS Glue para ejecutar el código en un entorno de Ray sin servidor. Aún no se admiten los trabajos visuales en AWS Glue Studio.
AWS GlueLos trabajos de permiten ejecutar un script según un cronograma o en respuesta a un evento de Amazon EventBridge. Los trabajos almacenan información de registro y estadísticas de supervisión CloudWatch que permiten comprender el estado y la confiabilidad del script. Para más información sobre el sistema de trabajos de AWS Glue, consulte Creación de trabajos en AWS Glue.
Las sesiones interactivas de AWS Glue permiten ejecutar fragmentos de código uno tras otro en los mismos recursos aprovisionados. Puede usarlo para crear prototipos y desarrollar scripts de manera eficiente, o bien crear sus propias aplicaciones interactivas. Puede utilizar las sesiones interactivas de AWS Glue desde los cuadernos de AWS Glue Studio en AWS Management Console. Para obtener más información, consulte Uso de los cuadernos con AWS Glue Studio y AWS Glue. También puede utilizarlos mediante un kernel de Jupyter que permite ejecutar sesiones interactivas desde las herramientas de edición de código existentes compatibles con cuadernos de Jupyter, como VSCode. Para obtener más información, consulte Introducción a las sesiones interactivas de AWS Glue.
Ray automatiza el trabajo de escalar el código de Python mediante la distribución del procesamiento en un clúster de equipos que vuelve a configurar en tiempo real en función de la carga. Esto puede mejorar el rendimiento por dólar de determinadas cargas de trabajo. Con los trabajos de Ray, hemos incorporado el escalado automático de forma nativa en el modelo de trabajo de AWS Glue, para poder aprovechar al máximo esta característica. Los trabajos de Ray se ejecutan en AWS Graviton, lo que lleva a una mayor rentabilidad general de los precios.
Además de ahorrar costos, puede utilizar el escalado automático nativo para ejecutar cargas de trabajo de Ray sin invertir tiempo en el mantenimiento, el ajuste y la administración del clúster. Puede utilizar bibliotecas conocidas de código abierto listas para su uso, como pandas y AWS SDK para Pandas. Estas mejoran la velocidad de iteración mientras desarrollaAWS Glue en Ray. Cuando utiliceAWS Glue en Ray, podrá desarrollar y ejecutar rápidamente cargas de trabajo rentables de integración de datos.
AWS Gluepara Ray y otros motores
AWS GlueEn Apache Spark (AWS GlueETL), puede utilizar PySpark para escribir código Python para gestionar datos a escala. Spark es una solución conocida para este problema, pero a los ingenieros de datos con experiencia en Python puede parecerles poco intuitiva la transición. El DataFrame modelo de Spark no es perfectamente como el de Python, lo que refleja el lenguaje de Scala y el entorno de ejecución de Java en el que se basa.
En AWS Glue, puede utilizar los trabajos del intérprete de comandos de Python para ejecutar integraciones de datos nativas de Python. Estos trabajos se ejecutan en una única instancia de Amazon EC2 y se ven limitados por la capacidad de esa instancia. Esto restringe el rendimiento de los datos que puede procesar y resulta costoso mantenerlos cuando se trata de macrodatos.
AWS Glueen Ray permite escalar verticalmente las cargas de trabajo de Python sin una inversión sustancial en el aprendizaje de Spark. Puede aprovechar ciertos escenarios en los que Ray tiene un mejor rendimiento. Al ofrecerle una opción, puede utilizar los puntos fuertes de Spark y Ray.
AWS GlueETL de yAWS Glue en Ray son diferentes en el fondo, por lo que admiten diferentes características. Consulte la documentación para ver las características admitidas.