Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Gérez le basculement multi-AZ pour les clusters EMR à l'aide d'Application Recovery Controller
Créée par Aarti Rajput (AWS), Ashish Bhatt (AWS), Neeti Mishra (AWS) et Nidhi Sharma (AWS)
Récapitulatif
Ce modèle propose une stratégie de reprise après sinistre efficace pour les charges de travail Amazon EMR afin de garantir la haute disponibilité et la cohérence des données entre plusieurs zones de disponibilité au sein d'une même zone. Région AWS La conception utilise Amazon Application Recovery Controller et un Application Load Balancer pour gérer les opérations de basculement et la distribution du trafic pour un cluster EMR basé sur Apache Spark.
Dans des conditions standard, la zone de disponibilité principale héberge un cluster EMR actif et une application avec des fonctionnalités de lecture/écriture complètes. En cas de défaillance inattendue d'une zone de disponibilité, le trafic est automatiquement redirigé vers la zone de disponibilité secondaire, où un nouveau cluster EMR est lancé. Les deux zones de disponibilité accèdent à un bucket Amazon Simple Storage Service (Amazon S3) partagé via des points de terminaison de passerelle dédiés, ce qui garantit une gestion cohérente des données. Cette approche minimise les temps d'arrêt et permet une restauration rapide des charges de travail critiques liées au Big Data en cas de défaillance de la zone de disponibilité. La solution est utile dans des secteurs tels que la finance ou le commerce de détail, où les analyses en temps réel sont cruciales.
Conditions préalables et limitations
Prérequis
Un actif Compte AWS
Amazon EMR sur Amazon Elastic Compute Cloud (Amazon) EC2
Accès depuis le nœud principal du cluster EMR à Amazon S3.
AWS Infrastructure multi-AZ
Limites
Certains Services AWS ne sont pas disponibles du tout Régions AWS. Pour connaître la disponibilité par région, voir Services AWS par région
. Pour des points de terminaison spécifiques, consultez la page Points de terminaison et quotas du service, puis choisissez le lien vers le service.
Versions du produit
Architecture
Pile technologique cible
Cluster Amazon EMR
Contrôleur Amazon Application Recovery
Application Load Balancer
Compartiment Amazon S3
Points de terminaison de passerelle pour Amazon S3
Architecture cible

Cette architecture assure la résilience des applications en utilisant plusieurs zones de disponibilité et en mettant en œuvre un mécanisme de restauration automatique via l'Application Recovery Controller.
L'Application Load Balancer achemine le trafic vers l'environnement Amazon EMR actif, qui est généralement le cluster EMR principal de la zone de disponibilité principale.
Le cluster EMR actif traite les demandes d'application et se connecte à Amazon S3 via son point de terminaison dédié à la passerelle Amazon S3 pour les opérations de lecture et d'écriture.
Amazon S3 sert de référentiel de données central et est potentiellement utilisé comme point de contrôle ou comme stockage partagé entre des clusters EMR. Les clusters EMR préservent la cohérence des données lorsqu'ils écrivent directement sur Amazon S3 via le
s3://
protocole et le système de fichiers EMR (EMRFS).Application Recovery Controller surveille en permanence l'état de santé de la zone de disponibilité principale et gère automatiquement les opérations de basculement lorsque cela est nécessaire.
Si l'Application Recovery Controller détecte une défaillance dans le cluster EMR principal, il prend les mesures suivantes :
Lance le processus de basculement vers le cluster EMR secondaire dans la zone de disponibilité 2.
Met à jour les configurations de routage pour diriger le trafic vers le cluster secondaire.
Outils
Services AWS
Amazon Application Recovery Controller vous aide à gérer et à coordonner la restauration de vos applications dans toutes Régions AWS les zones de disponibilité. Ce service simplifie le processus et améliore la fiabilité de la restauration des applications en réduisant les étapes manuelles requises par les outils et processus traditionnels.
Application Load Balancer fonctionne au niveau de la couche application, qui est la septième couche du modèle d'interconnexion des systèmes ouverts (OSI). Il répartit le trafic applicatif entrant sur plusieurs cibles, telles que EC2 les instances, dans plusieurs zones de disponibilité. La disponibilité de votre application s'en trouve accrue.
AWS Command Line Interface (AWS CLI) est un outil open source qui vous permet d'interagir Services AWS par le biais de commandes dans votre interface de ligne de commande.
Amazon EMR est une plateforme de mégadonnées qui fournit le traitement des données, l'analyse interactive et l'apprentissage automatique pour les frameworks open source tels qu'Apache Spark, Apache Hive et Presto.
AWS Identity and Access Management (IAM) vous aide à gérer en toute sécurité l'accès à vos AWS ressources en contrôlant qui est authentifié et autorisé à les utiliser.
Amazon S3 fournit une interface de service Web simple que vous pouvez utiliser pour stocker et récupérer n'importe quel volume de données, à tout moment et en tout lieu. Grâce à ce service, vous pouvez facilement créer des applications qui utilisent le stockage cloud natif.
Les points de terminaison de passerelle pour Amazon S3 sont des passerelles que vous spécifiez dans votre table de routage pour accéder à Amazon S3 depuis votre cloud privé virtuel (VPC) via le réseau. AWS
Bonnes pratiques
Suivez les AWS meilleures pratiques en matière de sécurité, d'identité et de conformité
afin de garantir une architecture robuste et sécurisée. Alignez l'architecture avec le AWS Well-Architected Framework
. Utilisez Amazon S3 Access Grants pour gérer l'accès à Amazon S3 depuis votre cluster EMR basé sur Spark. Pour plus de détails, consultez le billet de blog Use Amazon EMR with S3 Access Grants to Spark Access to Amazon
S3.
Épopées
Tâche | Description | Compétences requises |
---|---|---|
Connectez-vous au AWS Management Console. | Connectez-vous au en AWS Management Console | AWS DevOps |
Configurez le AWS CLI. | Installez le AWS CLI ou mettez-le à jour vers la dernière version afin de pouvoir interagir avec Services AWS le AWS Management Console. Pour obtenir des instructions, consultez la AWS CLI documentation. | AWS DevOps |
Tâche | Description | Compétences requises |
---|---|---|
Créez un compartiment S3. |
| AWS DevOps |
Créez un cluster EMR. |
| AWS DevOps |
Configurez les paramètres de sécurité pour le cluster EMR. |
| AWS DevOps |
Connectez-vous au cluster EMR. | Connectez-vous au nœud principal du cluster EMR via SSH à l'aide de la paire de clés fournie. Assurez-vous que le fichier de paires de clés se trouve dans le même répertoire que votre application. Exécutez les commandes suivantes pour définir les autorisations correctes pour la paire de clés et établir la connexion SSH :
| AWS DevOps |
Déployez l'application Spark. | Après avoir établi la connexion SSH, vous serez dans la console Hadoop.
| AWS DevOps |
Surveillez l'application Spark. |
| AWS DevOps |
Tâche | Description | Compétences requises |
---|---|---|
Créez un Application Load Balancer. | Configurez le groupe cible qui achemine le trafic entre les nœuds principaux Amazon EMR déployés dans deux zones de disponibilité au sein d'un. Région AWS Pour obtenir des instructions, consultez la section Création d'un groupe cible pour votre Application Load Balancer dans la documentation d'Elastic Load Balancing. | AWS DevOps |
Configurez le décalage zonal dans Application Recovery Controller. | Au cours de cette étape, vous allez utiliser la fonction de changement de zone d'Application Recovery Controller pour transférer le trafic vers une autre zone de disponibilité.
Pour utiliser le AWS CLI, consultez les exemples d'utilisation du AWS CLI avec décalage de zone dans la documentation d'Application Recovery Controller. | AWS DevOps |
Vérifiez la configuration et la progression du changement de zone. |
| AWS DevOps |
Ressources connexes
AWS CLI commandes :
Bonnes pratiques de sécurité dans l'IAM (documentation IAM)
Utiliser des profils d'instance (documentation IAM)
Utiliser le décalage de zone et le décalage automatique de zone pour restaurer les applications dans ARC (documentation Application Recovery Controller)