:::::::::::AWS Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

:::::::::::AWS Glue

AWS Gluede para en versión preliminar preliminar preliminarAWS Glue de, está sujeto a cambios.

Utiliza las mismasAWS Glue funciones, trabajos y sesiones interactivas que utilizaría conAWS Glue ETLAWS Glue para interactuar con Ray. AWS GlueLos trabajos de están diseñados para ejecutar el mismo script de forma periódica con los mismos recursos aprovisionados. AWS Glue ETL y Ray son diferentes en el fondo, por lo que en su script tendrá acceso a diferentes herramientas, características y configuraciones. Como nuevo marco de cálculo administrado por AWS Glue, Ray tiene una arquitectura diferente y usa un vocabulario diferente para describir lo que hace. Para más información, consulte Architecture Whitepapers (Documentos técnicos sobre la arquitectura) en la documentación sobre Ray.

Los trabajos de Ray en la consola de AWS Glue Studio

En la página Jobs (Trabajos) de la consola de AWS Glue Studio, puede seleccionar una nueva opción al crear un trabajo en AWS Glue Studio: editor de scripts de Ray. Seleccione esta opción para crear un trabajo de Ray en la consola. Para más información sobre los tipos de archivo y cómo se utilizan, consulte Creación de trabajos en AWS Glue.


                La página Jobs (Trabajos) de AWS Glue Studio, con la opción del editor de scripts de Ray seleccionada.

Sesiones interactivas de Ray en la consola de AWS Glue Studio

En la página Jobs (Trabajos) de la consola de AWS Glue Studio, seleccione la opción Jupyter Notebook (Cuaderno de Jupyter) existente. Se abrirá una página Notebook setup (Configuración del cuaderno) donde podrá seleccionar su kernel. Seleccione el kernel de Ray para iniciar una sesión interactiva de Ray. Para más información sobre las sesiones interactivas y cómo se utilizan, consulte Introducción a las sesiones interactivas de AWS Glue.


                La página Notebook setup (Configuración del cuaderno) de AWS Glue Studio, con la opción Ray Kernel (Kernel de Ray) seleccionada.

Sesiones interactivas de Ray mediante el uso del kernel de Jupyter

Para usar el kernel de Ray fuera de la consola de AWS Glue Studio, tendrá que instalar el paquete de aws-glue-sessions, publicado en PyPI. Para más información sobre cómo usar el paquete del kernel, consulte la documentación de Introducción a las sesiones interactivas de AWS Glue.

Para actualizar o instalar el kernel, ejecute pip install --upgrade aws-glue-sessions. Necesitará la versión .37+ para usar el kernel de Ray.

Valores predeterminados del tiempo de espera de la sesión interactiva de Ray

  • Tiempo de espera predeterminado (por sesión): 8 horas.

  • Tiempo de espera de inactividad predeterminado: 1 hora.

Comandos mágicos compatibles con las sesiones interactivas de AWS Glue Ray

Los comandos mágicos del kernel de Jupyter de AWS Glue, cuando potencian las sesiones interactivas de Ray, son similares a los de las sesiones de Spark. Como referencia, consulte Configuración de las sesiones interactivas de AWS Glue para cuadernos de Jupyter y AWS Glue Studio.

Comandos mágicos de las sesiones

Los comandos mágicos de las sesiones son prácticamente los mismos que antes deAWS Glue la versión preliminar preliminar de Para obtener más información sobre los comandos mágicos de sesión fuera de esta vista previa, consulte Comandos mágicos compatibles con las sesiones interactivas de AWS Glue para Jupyter. Presentamos un nuevo comando mágicoAWS Glue para configurar el tipo de sesión

Nombre Tipo Descripción
%glue_ray Cadena Cambia el tipoAWS Glue de sesión a

Comandos mágicos de configuración de AWS Glue

Los comandos mágicos para configurar AWS Glue en una sesión interactiva pueden ser diferente entre los tipos de sesión. Actualmente, solo se admite este subconjunto de comandos mágicos existentes cuando se usaAWS Glue para

Nombre Tipo Descripción
%%configure Diccionario Especifica un diccionario en formato JSON que consta de todos los parámetros de configuración para una sesión. Cada parámetro se puede especificar aquí o mediante comandos mágicos individuales.
%iam_role Cadena Especifica un ARN de rol de IAM con el que ejecutar la sesión. Valor predeterminado de ~/.aws/configure
%number_of_workers int Número de procesos de empleados de un worker_type definido que se asignan cuando se ejecuta un trabajo. También se debe configurar worker_type.
%worker_type Cadena La versión preliminar preliminar deAWS Glue para para versión preliminar de
%additional_python_modules Enumeración Lista separada por comas de módulos de Python adicionales que se deben incluir en el clúster (pueden ser de Pypi o S3).

Comando mágico de acción

Las sesiones de AWS Glue Ray no admiten ningún tipo de comando mágico de acción.

Trabajos de Ray en AWS CLI y SDK

Los trabajos de Ray de la CLI de AWS utilizan las mismas acciones y parámetros del SDK que los demás trabajos. LaAWS Glue versión preliminar de Para más información sobre la API de trabajos, consulte Trabajos.

  • --command (JobCommand): los trabajos de Ray utilizan Name glueray y solo admiten PythonVersion 3.9.

  • --glue-version (GlueVersion): los trabajos de Ray son compatibles con la versión 4.0 de AWS Glue. Esto se representa mediante el valor 4.0.

  • --worker-type (WorkerType): los trabajos de Ray están respaldados por un nuevo tipo de instancia de basado en AWS Graviton. Esto se representa mediante el valor Z.2X. Para el tipo de proceso de trabajo de Z.2X, cada proceso de trabajo se asigna a 2 DPU (8 vCPU, 64 GB de memoria, disco de 128 GB) y proporciona hasta 8 procesos de trabajo de Ray (uno por vCPU) en función del escalador automático.

  • --number-of-workers (NumberOfWorkers): de la versión preliminar deAWS Glue para de para versión preliminar de servicio, la cuenta está limitada por una nueva cuota de servicio. Tendrá acceso a una cantidad predeterminada de 50 DPU (25 procesos de trabajo Z.2X). Mínimo: 2.

  • Arguments comoDefaultArguments,NonOverridableArguments oArgumentsAWS Glue durante la ejecución del Job de, consulteUso de los parámetros de trabajo en los trabajos de Ray.

Proporcionar archivos a su trabajo de Ray

Puede proporcionar archivos a su trabajo de Ray con el--working-dir parámetro. Proporcione a este parámetro una ruta a un archivo.zip alojado en Amazon S3. Dentro del archivo.zip, los archivos deben estar contenidos en un único directorio de nivel superior. Ningún otro archivo debe estar en el nivel superior.

Los archivos se distribuirán a cada nodo de Ray antes de que el script comience a ejecutarse. Tenga en cuenta cómo esto puede afectar al espacio en disco disponible para cada nodo Ray, lo cual se determina según lo WorkerType establecido en la configuración del trabajo. Si desea proporcionar los datos de su trabajo a gran escala, este mecanismo no es la solución adecuada. Considera la posibilidad de usar elAWS SDK para pandas (awswrangler) para gestionar la forma en que proporcionas datos a tu trabajo. Para obtener más información, consulte la documentación delAWS SDK para pandas.

Se podrá acceder a sus archivos como si el directorio se le hubiera proporcionado a Ray a través delworking_dir parámetro. Por ejemplo, para leer un archivo nombradosample.txt en el directorio de nivel superior del archivo.zip, puedes llamar a:

@ray.remote def do_work(): f = open("sample.txt", "r") print(f.read())

Para obtener más información al respectoworking_dir, consulte la documentación de Ray. Esta función se comporta de manera similar a las capacidades nativas de Ray.