Utilisation de Ray Core et de Ray Data dans AWS Glue pour Ray - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation de Ray Core et de Ray Data dans AWS Glue pour Ray

Ray est un cadre permettant d'augmenter les scripts Python en répartissant le travail sur un cluster. Vous pouvez utiliser Ray comme solution à de nombreux types de problèmes. Ray fournit donc des bibliothèques pour optimiser certaines tâches. Dans AWS Glue, nous nous concentrons sur l'utilisation de Ray pour transformer de grands jeux de données. AWS Glue propose une prise en charge pour Ray Data et certaines parties de Ray Core afin de faciliter cette tâche.

Qu'est-ce que Ray Core ?

La première étape de la création d'une application distribuée consiste à identifier et à définir le travail pouvant être effectué simultanément. Ray Core contient les parties de Ray que vous utilisez pour définir les tâches qui peuvent être effectuées simultanément. Ray fournit des informations de référence et de démarrage rapide que vous pouvez utiliser pour découvrir les outils qu'ils fournissent. Pour plus d'informations, consultez Qu'est-ce que Ray Core ? et Ray Core Quick Start. Pour plus d'informations sur la définition efficace des tâches simultanées dans Ray, consultez Tips for first-time users.

Tâches et acteurs Ray

Dans la documentation AWS Glue pour Ray, nous pouvons faire référence aux tâches et aux acteurs, qui sont des concepts fondamentaux de Ray.

Ray utilise les fonctions et les classes Python comme éléments de base d'un système informatique distribué. Tout comme lorsque les fonctions et les variables Python deviennent des « méthodes » et des « attributs » lorsqu'elles sont utilisées dans une classe, les fonctions deviennent des « tâches » et les classes deviennent des « acteurs » lorsqu'elles sont utilisées dans Ray pour envoyer du code aux travailleurs. Vous pouvez identifier les fonctions et les classes susceptibles d'être utilisées par Ray grâce à l'annotation @ray.remote.

Les tâches et les acteurs sont configurables, ont un cycle de vie et utilisent des ressources de calcul tout au long de leur cycle de vie. Le code qui génère des erreurs peut être retracé jusqu'à une tâche ou à un acteur lorsque vous trouvez la cause première des problèmes. Ces termes peuvent donc apparaître lorsque vous apprenez à configurer, surveiller ou déboguer des tâches AWS Glue Ray.

Pour commencer à apprendre à utiliser efficacement les tâches et les acteurs pour créer une application distribuée, consultez Key Concepts dans la documentation Ray.

Ray Core dans AWS Glue pour Ray

Les environnements AWS Glue pour Ray gèrent la formation et la mise à l'échelle des clusters, ainsi que la collecte et la visualisation des journaux. Parce que nous gérons ces problèmes, nous limitons par conséquent l'accès et la prise en charge des API de Ray Core qui seraient utilisées pour résoudre ces problèmes dans un cluster open source.

Dans l'environnement d'exécution Ray2.4 géré, nous ne prenons pas en charge :

Qu'est-ce que Ray Data ?

Lorsque vous vous connectez à des sources de données et à des destinations, que vous manipulez des jeux de données et que vous initiez des transformations courantes, Ray Data est une méthodologie simple qui permet d'utiliser Ray pour résoudre les problèmes de transformation des jeux de données Ray. Pour plus d'informations sur l'utilisation de Ray Data, consultez Ray Datasets: Distributed Data Preprocessing.

Vous pouvez utiliser Ray Data ou d'autres outils pour accéder à vos données. Pour plus d'informations sur l'accès à vos données dans Ray, consultez Connexion aux données dans les tâches Ray.

Ray Data dans AWS Glue pour Ray

Ray Data est pris en charge et fourni par défaut dans l'environnement d'exécution géré Ray2.4. Pour plus d'informations sur les modules fournis, consultez Modules fournis avec les tâches Ray.