Problèmes connus liés à AWS Glue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Problèmes connus liés à AWS Glue

Prenez en considération les problèmes connus suivants pour AWS Glue.

Interdiction d'accès aux données inter-tâches

Imaginons le cas où vous avez deux tâches AWS Glue Spark dans un même AWS compte, chacune exécutée dans un cluster AWS Glue Spark distinct. Les tâches utilisent des connexions AWS Glue pour accéder aux ressources dans le même VPC (Virtual Private Cloud). Dans ce cas, une tâche s'exécutant dans un cluster peut accéder aux données à partir de la tâche s'exécutant dans l'autre cluster.

Le schéma suivant illustre une telle situation.

Les tâches AWS Glue Job-1 dans Cluster-1 et Job-2 dans Cluster-2 communiquent avec une instance Amazon Redshift dans Subnet-1 au sein d'un VPC. Les données sont transférées depuis Amazon S3 Bucket-1 et Bucket-2 vers Amazon Redshift.

Dans le schéma, AWS Glue Job-1 s'exécute dans Cluster-1 et Job-2 s'exécute dans Cluster-2. Les deux tâches fonctionnent avec la même instance Amazon Redshift, qui réside dans le sous-réseau Subnet-1 d'un VPC. Subnet-1 peut être un sous-réseau public ou privé.

Job-1transforme les données d'Amazon Simple Storage Service (Amazon Bucket-1 S3) et les écrit sur Amazon Redshift. Job-2fait de même avec les données en entréeBucket-2. Job-1utilise le rôle AWS Identity and Access Management (IAM) Role-1 (non illustré), qui donne accès àBucket-1. Job-2utilise Role-2 (non illustré), qui donne accès àBucket-2.

Ces tâches comportent des chemins réseau qui leur permettent de communiquer avec les clusters des autres tâches et donc d'accéder aux données de ces dernières. Par exemple, Job-2 peut accéder aux données dans Bucket-1. Dans le schéma, le chemin en rouge illustre cet accès.

Pour éviter cette situation, nous vous recommandons d'attacher des configurations de sécurité différentes à Job-1 et Job-2. Lorsque vous attachez les configurations de sécurité, l'accès inter-tâches aux données est bloqué grâce aux certificats créés par AWS Glue. Les configurations de sécurité peuvent être des configurations factices. En d'autres termes, vous pouvez créer les configurations de sécurité sans activer le chiffrement des données Amazon S3, des CloudWatch données Amazon ou des signets de tâches. Les trois options de chiffrement peuvent être désactivées.

Pour de plus amples informations sur les configurations de sécurité, veuillez consulter Chiffrement de données écrites par AWS Glue.

Pour attacher une configuration de sécurité à une tâche
  1. Ouvrez la AWS Glue console à l'adresse https://console.aws.amazon.com/glue/.

  2. Sur la page Configure the job properties (Configurer les propriétés de la tâche) de la tâche, développez la section Paramètres de configuration de sécurité, des bibliothèques de scripts et des tâches.

  3. Sélectionnez une configuration de sécurité dans la liste.