AWS Glue pour Spark et AWS Glue pour Ray - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS Glue pour Spark et AWS Glue pour Ray

Dans AWS Glue Apache Spark (AWS Glue ETL), vous pouvez écrire PySpark du code Python pour gérer les données à grande échelle. Spark est une solution familière à ce problème, mais les ingénieurs de données formés à Python peuvent trouver la transition peu intuitive. Le DataFrame modèle Spark n'est pas parfaitement « pythonique », ce qui reflète le langage Scala et l'environnement d'exécution Java sur lesquels il repose.

Dans AWS Glue, vous pouvez utiliser des tâches shell Python pour exécuter des intégrations de données Python natives. Ces tâches s'exécutent sur une seule EC2 instance Amazon et sont limitées par la capacité de cette instance. Elle limite le débit des données que vous pouvez traiter et devient coûteuse à gérer lorsqu'il s'agit de Big Data.

AWS Glue for Ray vous permet d'augmenter les charges de travail en Python sans investir de manière substantielle dans l'apprentissage de Spark. Vous pouvez tirer parti de certains scénarios dans lesquels Ray est plus performant. En vous offrant le choix, vous pouvez utiliser les points forts de Spark et de Ray.

AWS Glue ETLet AWS Glue pour Ray sont différents en dessous, ils supportent donc différentes fonctionnalités. Consultez la documentation pour identifier les fonctionnalités prises en charge.

Qu'est-ce que c'est AWS Glue pour Ray ?

Ray est une infrastructure de calcul distribuée open source que vous pouvez utiliser pour augmenter les charges de travail, en mettant l'accent sur Python. Pour plus d'informations sur Ray, consultez le site Web de Ray. AWS Glue Les tâches de Ray et les sessions interactives vous permettent d'utiliser Ray dans Ray AWS Glue.

Vous pouvez utiliser AWS Glue for Ray pour écrire des scripts Python pour des calculs qui s'exécuteront en parallèle sur plusieurs machines. Dans les tâches et les sessions interactives Ray, vous pouvez utiliser des bibliothèques Python familières telles que Pandas, afin de faciliter l'écriture et l'exécution de vos flux de travail. Pour plus d'informations sur les jeux de données Ray, veuillez consulter la rubrique Jeux de données Ray dans la documentation Ray. Pour plus d'informations sur pandas, veuillez consulter le site Web Pandas.

Avec AWS Glue for Ray, vous pouvez exécuter vos flux de travail Pandas sur des mégadonnées à l'échelle de l'entreprise, avec seulement quelques lignes de code. Vous pouvez créer une tâche Ray à partir de la AWS Glue console ou du AWS SDK. Vous pouvez également ouvrir une session AWS Glue interactive pour exécuter votre code dans un environnement Ray sans serveur. Les tâches visuelles dans ne AWS Glue Studio sont pas encore prises en charge.

AWS Glue les jobs for Ray vous permettent d'exécuter un script selon un calendrier ou en réponse à un événement d'Amazon EventBridge. Les jobs stockent des informations de journal et des statistiques de surveillance CloudWatch qui vous permettent de comprendre l'état et la fiabilité de votre script. Pour plus d'informations sur le système des AWS Glue tâches, consultezUtilisation des tâches Ray dans AWS Glue.

Ray automatise la mise à l'échelle du code Python en répartissant le traitement sur un cluster de machines qu'il reconfigure en temps réel, en fonction de la charge. Cette opération peut entraîner une amélioration des performances par dollar pour certaines charges de travail. Avec Ray Jobs, nous avons intégré la mise à l'échelle automatique de manière native dans le modèle de AWS Glue travail, afin que vous puissiez tirer pleinement parti de cette fonctionnalité. Les travaux de Ray sont exécutés sur AWS Graviton, ce qui se traduit par une meilleure performance globale en termes de prix.

Outre les économies de coûts qu'elle permet, vous pouvez utiliser la mise à l'échelle automatique native pour exécuter les charges de travail Ray sans consacrer de temps à la maintenance, au réglage et à l'administration des clusters. Vous pouvez utiliser des bibliothèques open source familières prêtes à l'emploi, telles que pandas et AWS SDK for Pandas. Elles améliorent la vitesse d'itération pendant que vous développez sur AWS Glue pour Ray. Lorsque vous utiliserez AWS Glue for Ray, vous serez en mesure de développer et d'exécuter rapidement des charges de travail d'intégration de données rentables.