Configuration du matériel et de la mise en réseau d'un cluster - Amazon EMR

Configuration du matériel et de la mise en réseau d'un cluster

Lors de la création d'un cluster Amazon EMR, il est important de tenir compte de la manière dont vous configurez les instances Amazon EC2 et les options réseau. Ce chapitre couvre les options suivantes, puis les relie toutes avec des bonnes pratiques et des directives.

  • Types de nœuds – Les instances Amazon EC2 d'un cluster EMR sont organisées en types de nœuds. Il en existe trois : les nœuds primaires, les nœuds principaux et les nœuds de tâches. Chaque type de nœud exécute un ensemble de rôles définis par les applications distribuées que vous installez sur le cluster. Au cours d'une tâche Hadoop MapReduce ou Spark, par exemple, les composants des nœuds principaux et des nœuds de tâche traitent les données, transfèrent la sortie vers Amazon S3 ou HDFS, et fournissent les métadonnées de statut en retour au nœud primaire. Dans le cas d'un cluster à un seul nœud, tous les composants s'exécutent sur le nœud primaire. Pour de plus amples informations, veuillez consulter Comprendre les types de nœuds : nœuds principaux, principaux et de tâches.

  • Instances EC2 : lorsque vous créez un cluster, vous faites des choix concernant les instances Amazon EC2 sur lesquelles chaque type de nœud sera exécuté. Le type d'instance EC2 détermine le profil de traitement et de stockage du nœud. Le choix de l'instance Amazon EC2 pour vos nœuds est important car il détermine le profil de performance des différents types de nœuds de votre cluster. Pour de plus amples informations, veuillez consulter Configuration des instances Amazon EC2.

  • Mise en réseau : vous pouvez lancer votre cluster Amazon EMR dans un VPC à l'aide d'un sous-réseau public, d'un sous-réseau privé ou d'un sous-réseau partagé. Votre configuration réseau détermine la manière dont les clients et les services peuvent se connecter aux clusters pour effectuer des tâches, la manière dont les clusters se connectent aux magasins de données et aux autres ressources AWS, ainsi que les options dont vous disposez pour contrôler le trafic sur ces connexions. Pour de plus amples informations, veuillez consulter Configuration de la mise en réseau.

  • Groupement d'instances – La collection d'instances EC2 qui hébergent chaque type de nœud est appelée soit un parc d'instances, soit un groupe d'instances uniforme. La configuration du groupement d'instances est un choix que vous faites lorsque vous créez un cluster. Ce choix détermine la manière dont vous pouvez ajouter des nœuds à votre cluster pendant son exécution. La configuration s'applique à tous les types de nœuds. Il ne peut pas être modifié ultérieurement. Pour de plus amples informations, veuillez consulter Création d'un cluster avec des parcs d'instances ou des groupes d'instances uniformes.

    Note

    La configuration de flotte d'instances est disponible uniquement dans les versions 4.8.0 et ultérieures d'Amazon EMR, à l'exception des versions 5.0.0 et 5.0.3.