Uso de Ray Core y Ray Data en AWS Glue para Ray - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de Ray Core y Ray Data en AWS Glue para Ray

Ray es un marco para escalar verticalmente los scripts de Python mediante la distribución del trabajo en un clúster. Puede usar Ray como solución a muchos tipos de problemas, por lo que Ray proporciona bibliotecas para optimizar determinadas tareas. En AWS Glue, nos centramos en usar Ray para transformar grandes conjuntos de datos. AWS Glueofrece soporte para Ray Data y partes de Ray Core a fin de facilitar esta tarea.

¿Qué es Ray Core?

El primer paso para crear una aplicación distribuida es identificar y definir el trabajo que se puede realizar de forma simultánea. Ray Core contiene las partes de Ray que se utilizan para definir las tareas que se pueden realizar de forma simultánea. Ray proporciona información de referencia y de inicio rápido que puede utilizar para aprender las herramientas que proporcionan. Para obtener más información, consulte ¿Qué es Ray Core? y Ray Core Quick Start. Para obtener más información sobre cómo definir eficazmente las tareas simultáneas en Ray, consulte Consejos para usuarios principiantes.

Tareas y actores de Ray

En la documentación de AWS Glue para Ray, podríamos referirnos a las tareas y los actores, que son conceptos básicos de Ray.

Ray usa las características y clases de Python como bloques de construcción de un sistema de computación distribuida. Al igual que cuando las características y variables de Python se convierten en “métodos” y “atributos” cuando se usan en una clase, las funciones se convierten en “tareas” y las clases se convierten en “actores” cuando se usan en Ray para enviar código a los trabajadores. Mediante la anotación de @ray.remote, puede identificar las características y las clases que Ray podría usar.

Las tareas y los actores son configurables, tienen un ciclo de vida y consumen recursos informáticos a lo largo de su vida. El código que genera errores se puede rastrear hasta una tarea o actor cuando se busca la causa raíz de los problemas. Por lo tanto, estos términos pueden surgir cuando aprenda a configurar, monitorear o depurar trabajos de AWS Glue para Ray.

Para empezar a aprender a utilizar eficazmente las tareas y los actores a fin de crear una aplicación distribuida, consulte Conceptos clave en los documentos de Ray.

Ray Core en AWS Glue para Ray

AWS Glue para los entornos de Ray administra la formación y el escalado vertical de los clústeres, así como la recopilación y visualización de registros. Como gestionamos estos problemas, limitamos el acceso y el soporte a las API de Ray Core que se utilizarían para abordar estos problemas en un clúster de código abierto.

En el entorno de tiempo de ejecución de Ray2.4 administrado, no admitimos lo siguiente:

¿Qué es Ray Data?

Cuando se conecta a orígenes y destinos de datos, gestiona conjuntos de datos e inicia transformaciones comunes, Ray Data es una metodología sencilla para usar Ray a fin de resolver problemas mediante la transformación de conjuntos de datos de Ray. Para obtener más información sobre el uso de Ray Data, consulte Ray Datasets: Preprocesamiento de datos distribuidos.

Puede usar Ray Data u otras herramientas para acceder a sus datos. Para obtener más información sobre cómo acceder a sus datos en Ray, consulte Conexión a los datos de los trabajos de Ray.

Ray Data en AWS Glue para Ray

Ray Data es compatible y se proporciona de forma predeterminada en el entorno de tiempo de ejecución de Ray2.4 administrado. Para obtener más información sobre los módulos proporcionados, consulte Módulos incluidos con los trabajos de Ray.