Configuration d'un cluster pour qu'il continue ou se résilie après l'exécution de l'étape - Amazon EMR

Configuration d'un cluster pour qu'il continue ou se résilie après l'exécution de l'étape

Cette rubrique explique les différences entre l'utilisation d'un cluster de longue durée et la création d'un cluster transitoire qui s'arrête après l'exécution de la dernière étape. Il explique également comment configurer l'exécution des étapes pour un cluster.

Création d'un cluster à long terme

Par défaut, les clusters que vous créez avec la console ou l'AWS CLI sont de longue durée. Les clusters de longue durée continuent de fonctionner, d'accepter du travail et d'accumuler des frais jusqu'à ce que vous preniez des mesures pour les arrêter.

Un cluster de longue durée est efficace dans les situations suivantes :

  • Lorsque vous devez interroger des données de manière interactive ou automatique.

  • Lorsque vous devez interagir en permanence avec des applications Big Data hébergées sur le cluster.

  • Lorsque vous traitez périodiquement un jeu de données si important ou si fréquent qu'il est inefficace de lancer de nouveaux clusters et de charger les données à chaque fois.

Vous pouvez également définir une protection contre la résiliation sur un cluster de longue durée afin d'éviter d'arrêter les instances EC2 par accident ou par erreur. Pour de plus amples informations, veuillez consulter Utilisation de la protection contre la résiliation.

Note

Amazon EMR active automatiquement la protection contre les résiliations pour tous les clusters comportant plusieurs nœuds primaires et remplace tous les paramètres d'exécution des étapes que vous fournissez lors de la création du cluster. Vous pouvez désactiver la protection contre la résiliation après le lancement du cluster. Consultez Configuration de la protection contre la résiliation pour les clusters en cours d'exécution. Pour résilier un cluster comportant plusieurs nœuds primaires, vous devez d'abord modifier les attributs du cluster afin de désactiver la protection contre la résiliation. Pour obtenir des instructions, consultez Résiliation d'un cluster Amazon EMR avec plusieurs nœuds primaires.

Configurer un cluster pour qu'il se résilie après l'exécution de l'étape

Lorsque vous configurez la résiliation après l'exécution des étapes, le cluster démarre, exécute des actions d'amorçage, puis exécute les étapes que vous spécifiez. Dès que la dernière étape est terminée, Amazon EMR résilie les instances Amazon EC2 du cluster. L'exécution par étapes est activée par défaut pour les clusters que vous lancez avec l'API Amazon EMR.

Le fait de résilier après l'exécution d'une étape est efficace pour les clusters qui effectuent une tâche de traitement périodique, telle qu'une exécution quotidienne de traitement de données. L'exécution des étapes vous permet également de vous assurer que vous n'êtes facturé que pour le temps nécessaire au traitement de vos données. Pour plus d'informations sur ces étapes, consultez Soumission de travail à un cluster.

Note

Nous avons repensé la console Amazon EMR pour la rendre plus facile à utiliser. Consultez Nouveautés de la console pour en savoir plus sur les différences entre les anciennes et les nouvelles expériences de console.

New console
Pour activer l'exécution des étapes avec la nouvelle console
  1. Connectez-vous à la AWS Management Console et ouvrez la console Amazon EMR à l'adresse https://console.aws.amazon.com/emr.

  2. Sous EMR sur EC2 dans le volet de navigation de gauche, choisissez Clusters, puis Créer un cluster.

  3. Sous Étapes, choisissez Ajouter une étape. Dans la boîte de dialogue Ajouter une étape, saisissez les valeurs de champ appropriées. Les options diffèrent selon le type d'étape. Pour ajouter votre étape et quitter la boîte de dialogue, choisissez Ajouter une étape.

  4. Sous Résiliation du cluster, cochez la case Résilier le cluster une fois la dernière étape terminée.

  5. Choisissez toutes les autres options qui s'appliquent à votre cluster.

  6. Pour lancer votre cluster, choisissez Créer le cluster.

Old console
Pour activer l'exécution des étapes avec l'ancienne console
  1. Accédez à la nouvelle console Amazon EMR et sélectionnez Basculer vers l'ancienne console depuis le menu latéral. Pour plus d'informations sur ce qui vous attend lorsque vous passez à l'ancienne console, consultez la rubrique Utilisation de l'ancienne console.

  2. Choisissez Create Cluster (Créer un cluster).

  3. Choisissez Stop execution (Arrêter l'exécution).

  4. Choisissez d'autres paramètres selon les besoins de votre application, puis choisissez Create Cluster (Créer un cluster).

AWS CLI
Pour activer l'exécution des étapes à l'aide de l'AWS CLI
  • Spécifiez le paramètre --auto-terminate quand vous utilisez la commande create-cluster pour créer un cluster transitoire.

    L'exemple suivant montre comment utiliser le paramètre --auto-terminate. Vous pouvez taper la commande suivante et remplacer myKey par le nom de votre paire de clés EC2.

    Note

    Les caractères de continuation de ligne Linux (\) sont inclus pour des raisons de lisibilité. Ils peuvent être supprimés ou utilisés dans les commandes Linux. Pour Windows, supprimez-les ou remplacez-les par un caret (^).

    aws emr create-cluster --name "Test cluster" --release-label emr-5.36.1 \ --applications Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey \ --steps Type=PIG,Name="Pig Program",ActionOnFailure=CONTINUE,\ Args=[-f,s3://mybucket/scripts/pigscript.pig,-p,\ INPUT=s3://mybucket/inputdata/,-p,OUTPUT=s3://mybucket/outputdata/,\ $INPUT=s3://mybucket/inputdata/,$OUTPUT=s3://mybucket/outputdata/] --instance-type m5.xlarge --instance-count 3 --auto-terminate
API
Pour désactiver l'exécution des étapes avec l'API Amazon EMR