Options d'Amazon VPC - Amazon EMR

Options d'Amazon VPC

Lorsque vous lancez un cluster Amazon EMR au sein d'un VPC, vous pouvez le lancer dans un sous-réseau public, privé ou partagé. Les différences de configuration sont légères mais importantes, en fonction du type de sous-réseau que vous choisissez pour un cluster.

Sous-réseaux publics

Les clusters EMR dans un sous-réseau public nécessitent une passerelle Internet connectée Cela s'explique par le fait que les clusters Amazon EMR doivent accéder aux services AWS et à Amazon EMR. Si un service, tel qu'Amazon S3, offre la possibilité de créer un point de terminaison d'un VPC, vous pouvez accéder à ces services à l'aide du point de terminaison au lieu d'accéder à un point de terminaison public via une passerelle Internet. En outre, Amazon EMR ne peut pas communiquer avec des clusters dans des sous-réseaux publics via un périphérique de traduction d'adresses réseau (NAT). C'est pour cette raison qu'une passerelle Internet est obligatoire, mais vous pouvez toujours utiliser une instance NAT ou une passerelle pour le reste du trafic dans les scénarios plus complexes.

Toutes les instances d'un cluster se connectent à Amazon S3 via un point de terminaison d'un VPC ou une passerelle Internet. Les autres services AWS qui actuellement ne prennent pas en charge les points de terminaison d'un VPC utilisent uniquement une passerelle Internet.

Si vous disposez de ressources AWS supplémentaires que vous ne souhaitez pas connecter à la passerelle Internet, vous pouvez les lancer dans un sous-réseau privé que vous créez dans votre VPC.

Les clusters exécutant un sous-réseau public utilisent deux groupes de sécurité : un groupe pour le nœud primaire et un autre pour les nœuds de noyau et de tâche. Pour de plus amples informations, veuillez consulter Contrôle du trafic réseau avec des groupes de sécurité.

Le schéma suivant montre l'exécution d'un cluster Amazon EMR dans un VPC à l'aide d'un sous-réseau public. Le cluster est capable de se connecter à d'autres ressources AWS, par exemple aux compartiments Amazon S3, via la passerelle Internet.


							Cluster sur un VPC

Le schéma suivant montre comment configurer un VPC afin qu'un cluster présent dans le VPC puisse accéder aux ressources de votre propre réseau, par exemple une base de données Oracle.


							Configuration d'un VPC et d'un cluster pour accéder aux ressources du VPN

Sous-réseaux privés

Un sous-réseau privé vous permet de lancer des ressources AWS sans qu'il soit nécessaire que le sous-réseau ait une passerelle internet connectée. Amazon EMR prend en charge le lancement de clusters dans des sous-réseaux privés avec les versions 4.2.0 ou ultérieures.

Note

Lorsque vous configurez un cluster Amazon EMR dans un sous-réseau privé, nous vous recommandons de configurer également des points de terminaison VPC pour Amazon S3. Si votre cluster EMR se trouve dans un sous-réseau privé sans points de terminaison VPC pour Amazon S3, vous devrez payer des frais de passerelle NAT supplémentaires associés au trafic S3, car le trafic entre votre cluster EMR et S3 ne restera pas dans votre VPC.

La différence entre les sous-réseaux privés diffère des sous-réseaux publics pour les raisons suivantes :

  • Pour accéder aux services AWS qui n'offrent pas de point de terminaison d'un VPC, vous devez toujours utiliser une instance NAT ou une passerelle Internet.

  • Au minimum, vous devez indiquer un chemin vers le compartiment des journaux du service Amazon EMR et vers le répertoire Amazon Linux dans Amazon S3. Pour de plus amples informations, veuillez consulter Politique Amazon S3 minimale pour le sous-réseau privé.

  • Si vous utilisez les fonctionnalités EMRFS, vous devez disposer d'un point de terminaison d'un VPC Amazon S3 et d'un acheminement de votre sous-réseau privé vers DynamoDB.

  • Le débogage fonctionne uniquement si vous fournissez une route de votre sous-réseau privé vers un point de terminaison Amazon SQS public.

  • La création d'une configuration de sous-réseau privé avec une passerelle ou une instance NAT dans un sous-réseau public est uniquement prise en charge à l'aide d'AWS Management Console. Le moyen le plus simple d'ajouter et de configurer des instances NAT et des points terminaison d'un VPC Amazon S3 pour les clusters Amazon EMR est d'utiliser la page Liste des sous-réseaux VPC dans la console Amazon EMR. Pour configurer les passerelles NAT, consultez la section Passerelles NAT dans le Guide de l'utilisateur Amazon VPC.

  • Vous ne pouvez pas modifier un sous-réseau avec un cluster Amazon EMR existant de public à privé ou inversement. Pour placer un cluster Amazon EMR au sein d'un sous-réseau privé, le cluster doit être démarré dans ce sous-réseau privé.

Amazon EMR crée et utilise différents groupes de sécurité par défaut pour les clusters dans un sous-réseau privé : ElasticMapReduce-Master-Private, ElasticMapReduce-Slave-Private et ElasticMapReduce-ServiceAccess. Pour de plus amples informations, veuillez consulter Contrôle du trafic réseau avec des groupes de sécurité.

Pour obtenir une liste complète des listes de contrôle d'accès réseau (listes ACL réseau) de votre cluster, choisissez Groupes de sécurité pour le principal et Groupes de sécurité pour le noyau et la tâche sur la page Détails du cluster de la console Amazon EMR.

L'image suivante montre comment un cluster Amazon EMR est configuré dans un sous-réseau privé. La seule communication en dehors du sous-réseau est la communication vers Amazon EMR.


							Lancement d'un cluster Amazon EMR dans un sous-réseau privé

L'image suivante représente un exemple de configuration pour un cluster Amazon EMR au sein d'un sous-réseau privé connecté à une instance NAT située dans un sous-réseau public.


							Sous-réseau privé avec NAT

Sous-réseaux partagés

Le partage de VPC permet aux clients de partager des sous-réseaux avec d'autres comptes AWS au sein de la même organisation AWS. Vous pouvez lancer des clusters Amazon EMR dans des sous-réseaux publics et privés partagés, avec les restrictions suivantes.

Le propriétaire du sous-réseau doit partager un sous-réseau avec vous pour que vous puissiez lancer un cluster Amazon EMR dans celui-ci. Cependant, des sous-réseaux partagés peuvent devenir non partagés ultérieurement. Pour plus d'informations, consultez Utilisation de VPC partagés. Lorsqu'un cluster est lancé dans un sous-réseau partagé qui devient ensuite non partagé, vous pouvez observer des comportements spécifiques en fonction de l'état du cluster Amazon EMR lorsque le sous-réseau devient non partagé.

  • Le sous-réseau devient non partagé avant que le cluster soit lancé - Si le propriétaire cesse de partager l'Amazon VPC ou le sous-réseau alors que le participant lance un cluster, il se peut que le cluster ne puisse pas démarrer ou soit partiellement initialisé sans mettre en service toutes les instances demandées.

  • Le sous-réseau devient non partagéaprès que le cluster est lancé - Lorsque le propriétaire cesse de partager un sous-réseau ou un Amazon VPC avec le participant, les clusters du participant ne peuvent pas être redimensionnés pour ajouter de nouvelles instances ou remplacer des instances défectueuses.

Lorsque vous lancez un cluster Amazon EMR, plusieurs groupes de sécurité sont créés. Dans un sous-réseau partagé, le participant au sous-réseau contrôle ces groupes de sécurité. Le propriétaire du sous-réseau peut voir ces groupes de sécurité, mais ne peut pas exécuter d'actions sur ceux-ci. Si le propriétaire du sous-réseau souhaite supprimer ou modifier le groupe de sécurité, le participant qui a créé le groupe de sécurité doit effectuer l'action.

Contrôlez les autorisations VPC avec IAM

Par défaut, tous les utilisateurs peuvent consulter l'ensemble des sous-réseaux du compte, et n'importe quel utilisateur peut lancer un cluster dans n'importe quel sous-réseau.

Lorsque vous lancez un cluster dans un VPC, vous pouvez utiliser AWS Identity and Access Management (IAM) pour contrôler l'accès aux clusters et limiter les actions à l'aide de stratégies, de la même manière qu'avec les clusters lancés dans Amazon EC2 Classic. Pour plus d'informations sur IAM, consultez le Guide de l'utilisateur IAM.

Vous pouvez également utiliser IAM pour contrôler les personnes autorisées à créer et gérer des sous-réseaux. Par exemple, vous pouvez créer un compte pour administrer les sous-réseaux et un second compte qui peut lancer des clusters mais ne peut pas modifier les paramètres Amazon VPC. Pour plus d'informations sur l'administration des politiques et des actions dans Amazon EC2 et Amazon VPC, consultez la section Politiques IAM pour Amazon EC2 dans le Guide de l'utilisateur Amazon EC2 pour les instances Linux.