Utilisation des tâches Ray dans AWS Glue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation des tâches Ray dans AWS Glue

Cette section fournit des informations sur l'utilisation des tâches AWS Glue pour Ray. Pour plus d'informations sur l'écriture de scripts AWS Glue pour Ray, consultez la section Programmation de scripts Ray.

Mise en route avec AWS Glue pour Ray

Pour travailler avec AWS Glue pour Ray, vous utilisez les mêmes tâches et sessions interactives AWS Glue que vous utilisez avec AWS Glue pour Spark. Les tâches AWS Glue sont conçues pour exécuter le même script à une cadence récurrente, tandis que les sessions interactives vous permettent d'exécuter des extraits de code de manière séquentielle sur les mêmes ressources provisionnées.

ETL AWS Glue et Ray sont différents dans le fond. Ainsi, dans votre script, vous avez accès à différents outils, fonctionnalités et configurations. En tant que nouvelle infrastructure de calcul gérée par AWS Glue, Ray présente une architecture différente et utilise un autre vocabulaire pour décrire ses actions. Pour plus d'informations, consultez les livres blancs sur l'architecture de la documentation Ray.

Note

AWS Glue pour Ray est disponible dans les régions suivantes : USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), Asie-Pacifique (Tokyo) et Europe (Irlande).

Tâches Ray dans la console AWS Glue Studio

Sur la page Tâches de la console AWS Glue Studio, vous pouvez sélectionner une nouvelle option lors de la création d'une tâche dans AWS Glue Studio. Éditeur de script Ray. Choisissez cette option pour créer une tâche Ray sur la console. Pour plus d'informations sur ces tâches et leur utilisation, consultez Créer des tâches ETL visuelles avec AWS Glue Studio.

La page Tâches dans AWS Glue Studio avec l'option Éditeur de script Ray sélectionnée.

Tâches Ray dans la AWS CLI et le kit SDK

Les tâches Ray dans la AWS CLI utilisent les mêmes actions et paramètres du kit SDK que les autres tâches. AWS Glue pour Ray introduit de nouvelles valeurs pour certains paramètres. Pour plus d'informations sur l'API Tâches, consultez Tâches.

Environnements d'exécution Ray pris en charge

Dans les tâches Spark, GlueVersion détermine les versions d'Apache Spark et de Python disponibles dans une tâche AWS Glue pour Spark. La version de Python indique la version qui est prise en charge pour les tâches de type Spark. Les environnements d'exécution Ray ne sont pas configurés de cette manière.

Pour les tâches Ray vous devez définir GlueVersion sur 4.0 ou supérieur. Toutefois, les versions de Ray, de Python et des bibliothèques supplémentaires disponibles dans votre tâche Ray sont déterminées par le champ Runtime de la définition de la tâche.

L'environnement d'exécution Ray2.4 sera disponible pendant au moins six mois après sa sortie. Au fur et à mesure de l'évolution rapide de Ray, vous pourrez intégrer les mises à jour et les améliorations de Ray dans les futures versions de l'environnement d'exécution.

Valeurs valides : Ray2.4

Valeur d'exécution Versions Ray et Python
Ray2.4 (pour la version 4.0 et ultérieure de AWS Glue)

Ray 2.4.0

Python 3.9

Informations supplémentaires

Comptabilité pour les travailleurs dans les tâches Ray

AWS Glue exécute les tâches Ray sur de nouveaux types de travailleurs EC2 basés sur Graviton, qui ne sont disponibles que pour les tâches Ray. Afin de bien approvisionner ces travailleurs pour les charges de travail pour lesquelles Ray est conçu, nous fournissons un rapport différent entre les ressources de calcul et les ressources de mémoire de la plupart des travailleurs. Afin de tenir compte de ces ressources, nous utilisons l'unité de traitement des données à mémoire optimisée (M-DPU) plutôt que l'unité de traitement de données standard (DPU).

  • Une M-DPU correspond à 4 vCPU et à 32 Go de mémoire.

  • Une DPU correspond à 4 vCPU et à 16 Go de mémoire. Les DPU sont utilisés pour comptabiliser les ressources dans AWS Glue avec les tâches Spark et les travailleurs correspondants.

Les tâches Ray ont actuellement accès à un type de travailleur : Z.2X. Le travailleur Z.2X correspond à 2 M-DPU (8 vCPU, 64 Go de mémoire) et dispose de 128 Go d'espace disque. Une machine Z.2X fournit huit travailleurs Ray (un par vCPU).

Le nombre de M-DPU que vous pouvez utiliser simultanément dans un compte est soumis à un quota de service. Pour plus d'informations sur les limites de votre compte AWS Glue, consultez AWS Glue endpoints and quotas.

Vous indiquez le nombre de composants master disponibles pour une tâche Ray avec --number-of-workers (NumberOfWorkers) dans la définition de la tâche. Pour plus d'informations sur les valeurs Ray dans l'API Tâches, consultez Tâches.

Vous pouvez également indiquer le nombre minimum de travailleurs qu'une tâche Ray doit allouer avec le paramètre de tâche --min-workers. Pour de plus amples informations sur la définition des paramètres de la tâche, consultez Référence.