Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Cette section fournit des informations sur l'utilisation AWS Glue des tâches For Ray. Pour plus d'informations sur l'écriture de scripts AWS Glue pour Ray, consultez la Programmation de scripts Ray section.
Rubriques
Commencer avec AWS Glue For Ray
Pour travailler avec AWS Glue for Ray, vous utilisez les mêmes AWS Glue tâches et sessions interactives que AWS Glue pour Spark. AWS Glue les tâches sont conçues pour exécuter le même script à une cadence récurrente, tandis que les sessions interactives sont conçues pour vous permettre d'exécuter des extraits de code de manière séquentielle sur les mêmes ressources provisionnées.
AWS Glue ETL et Ray sont différents en dessous, donc dans votre script, vous avez accès à différents outils, fonctionnalités et configurations. En tant que nouveau framework de calcul géré par AWS Glue, Ray possède une architecture différente et utilise un vocabulaire différent pour décrire ce qu'il fait. Pour plus d'informations, consultez les livres blancs sur l'architecture
Note
AWS Glue for Ray est disponible dans l'est des États-Unis (Virginie du Nord), dans l'est des États-Unis (Ohio), dans l'ouest des États-Unis (Oregon), en Asie-Pacifique (Tokyo) et en Europe (Irlande).
Ray Jobs dans la AWS Glue Studio console
Sur la page Tâches de la AWS Glue Studio console, vous pouvez sélectionner une nouvelle option lorsque vous créez une tâche dans AWS Glue Studio l'éditeur de script Ray. Choisissez cette option pour créer une tâche Ray sur la console. Pour plus d'informations sur ces tâches et leur utilisation, consultez Création de tâches ETL visuelles avec AWS Glue Studio.

Offres d'emploi Ray dans le SDK AWS CLI et
Les tâches Ray AWS CLI utilisent les mêmes actions et paramètres du SDK que les autres tâches. AWS Glue for Ray introduit de nouvelles valeurs pour certains paramètres. Pour plus d'informations sur l'API Tâches, consultez Tâches.
Environnements d'exécution Ray pris en charge
Dans les tâches Spark, GlueVersion
détermine les versions d'Apache Spark et de Python disponibles dans une tâche AWS Glue pour Spark. La version de Python indique la version qui est prise en charge pour les tâches de type Spark. Les environnements d'exécution Ray ne sont pas configurés de cette manière.
Pour les tâches Ray vous devez définir GlueVersion
sur 4.0
ou supérieur. Toutefois, les versions de Ray, de Python et des bibliothèques supplémentaires disponibles dans votre tâche Ray sont déterminées par le champ Runtime
de la définition de la tâche.
L'environnement d'exécution Ray2.4
sera disponible pendant au moins six mois après sa sortie. Au fur et à mesure de l'évolution rapide de Ray, vous pourrez intégrer les mises à jour et les améliorations de Ray dans les futures versions de l'environnement d'exécution.
Valeurs valides : Ray2.4
Valeur d'exécution | Versions Ray et Python |
---|---|
Ray2.4 (pour AWS Glue 4,0 ou plus) |
Ray 2.4.0 Python 3.9 |
Informations supplémentaires
-
Pour les notes de publication qui accompagnent AWS Glue les versions de Ray, voirAWS Glue versions.
-
Pour les bibliothèques Python fournies dans un environnement d'exécution, consultez Modules fournis avec les tâches Ray.
Comptabilité pour les travailleurs dans les tâches Ray
AWS Glue exécute les tâches Ray sur de nouveaux types de EC2 travailleurs basés sur Graviton, qui ne sont disponibles que pour les tâches Ray. Afin de bien approvisionner ces travailleurs pour les charges de travail pour lesquelles Ray est conçu, nous fournissons un rapport différent entre les ressources de calcul et les ressources de mémoire de la plupart des travailleurs. Afin de tenir compte de ces ressources, nous utilisons l'unité de traitement des données à mémoire optimisée (M-DPU) plutôt que l'unité de traitement de données standard (DPU).
-
Un M-DPU correspond à 4 V CPUs et à 32 Go de mémoire.
-
Un DPU correspond à 4 V CPUs et 16 Go de mémoire. DPUs sont utilisés pour prendre en compte les ressources dans AWS Glue les tâches Spark et les travailleurs correspondants.
Les tâches Ray ont actuellement accès à un type de travailleur : Z.2X
. Le Z.2X
worker correspond à 2 M- DPUs (8 VCPUs, 64 Go de mémoire) et dispose de 128 Go d'espace disque. Une machine Z.2X
fournit huit travailleurs Ray (un par vCPU).
Le nombre de M- DPUs que vous pouvez utiliser simultanément dans un compte est soumis à un quota de service. Pour plus d'informations sur les limites de votre AWS Glue compte, consultez la section AWS Glue Points de terminaison et quotas.
Vous indiquez le nombre de composants master disponibles pour une tâche Ray avec --number-of-workers
(NumberOfWorkers)
dans la définition de la tâche. Pour plus d'informations sur les valeurs Ray dans l'API Tâches, consultez Tâches.
Vous pouvez également indiquer le nombre minimum de travailleurs qu'une tâche Ray doit allouer avec le paramètre de tâche --min-workers
. Pour de plus amples informations sur la définition des paramètres de la tâche, consultez Référence.