Einen EMR Amazon-Job verwalten - AWS Step Functions

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Einen EMR Amazon-Job verwalten

Dieses Beispielprojekt demonstriert Amazon EMR und AWS Step Functions Integration. Das Projekt erstellt einen EMR Amazon-Cluster, fügt mehrere Schritte hinzu und führt sie aus. Anschließend wird der Cluster beendet.

Wichtig

Amazon EMR hat kein kostenloses Preiskontingent. Bei der Ausführung des Beispielprojekts fallen Kosten an. Preisinformationen finden Sie auf der EMRAmazon-Preisseite. Die Verfügbarkeit der EMR Amazon-Serviceintegration hängt von der Verfügbarkeit von Amazon ab EMRAPIs. Aus diesem Grund funktioniert dieses Beispielprojekt in einigen AWS Regionen möglicherweise nicht richtig. Informationen zu Einschränkungen in bestimmten Regionen finden Sie in der EMRAmazon-Dokumentation.

Schritt 1: Erstellen Sie den State Machine und stellen Sie Ressourcen bereit

  1. Öffnen Sie die Step Functions Functions-Konsole und wählen Sie Create State Machine.

  2. Geben Sie Manage an EMR job etwas in das Suchfeld ein und wählen Sie dann aus den zurückgegebenen Suchergebnissen die Option EMR Auftrag verwalten aus.

  3. Wählen Sie Next (Weiter), um fortzufahren.

  4. Step Functions listet die Funktionen auf, die in dem von Ihnen ausgewählten Beispielprojekt AWS -Services verwendet wurden. Außerdem wird ein Workflow-Diagramm für das Beispielprojekt angezeigt. Stellen Sie dieses Projekt für Ihr Projekt bereit AWS-Konto oder verwenden Sie es als Ausgangspunkt für die Erstellung Ihrer eigenen Projekte. Je nachdem, wie Sie vorgehen möchten, wählen Sie „Demo ausführen“ oder „Darauf aufbauen“.

    In diesem Beispielprojekt werden die folgenden Ressourcen bereitgestellt:

    • Einen Amazon S3-Bucket

    • Ein Cluster Amazon EMR

    • Eine AWS Step Functions Zustandsmaschine

    • Verwandte AWS Identity and Access Management (IAM) Rollen

    Die folgende Abbildung zeigt das Workflow-Diagramm für das Beispielprojekt „Einen EMR Job verwalten“:

    Workflow-Diagramm des Beispielprojekts „Einen EMR Job verwalten“.
  5. Wählen Sie Vorlage verwenden, um mit Ihrer Auswahl fortzufahren.

  6. Führen Sie eine der folgenden Aktionen aus:

    • Wenn Sie „Darauf aufbauen“ ausgewählt haben, erstellt Step Functions den Workflow-Prototyp, stellt jedoch nicht die Ressourcen in der Workflow-Definition bereit, sodass Sie Ihren Workflow-Prototyp weiterentwickeln können.

      In Workflow Studio können Sie Ihrem Workflow-Prototyp zusätzliche Status hinzufügen. Entwurfsmodus Oder Sie können zu der wechseln, um den integrierten Code-Editor Codemodus zu verwenden, um die Amazon States Language (ASL) -Definition Ihrer Zustandsmaschine von der Step Functions Functions-Konsole aus zu bearbeiten.

      Wichtig

      Möglicherweise müssen Sie den Platzhalter Amazon Resource Name (ARN) für die im Beispielprojekt verwendeten Ressourcen aktualisieren, bevor Sie Ihren Workflow ausführen können.

    • Wenn Sie Eine Demo ausführen ausgewählt haben, erstellt Step Functions ein schreibgeschütztes Projekt, das eine AWS CloudFormation Vorlage verwendet, um die AWS Ressourcen in dieser Vorlage für Ihr Projekt bereitzustellen. AWS-Konto Sie können die State-Machine-Definition anzeigen, indem Sie den Codemodus wählen.

      Wählen Sie Bereitstellen und ausführen, um das Projekt bereitzustellen und die Ressourcen zu erstellen.

      Beachten Sie, dass die Bereitstellung bis zu 10 Minuten dauern kann, bis Ressourcen und IAM Berechtigungen erstellt sind. Während der Bereitstellung Ihrer Ressourcen können Sie den AWS CloudFormation Stack-ID-Link öffnen, um zu sehen, welche Ressourcen bereitgestellt werden.

      Nachdem alle Ressourcen erstellt wurden, sollte das Projekt auf der Seite State Machines in der Konsole angezeigt werden.

      Wichtig

      Für jeden in der CloudFormation Vorlage verwendeten Dienst können Standardgebühren anfallen.

Schritt 2: Führen Sie die Zustandsmaschine aus

  1. Wählen Sie auf der Seite State Machines Ihr Beispielprojekt aus.

  2. Wählen Sie auf der Seite mit dem Beispielprojekt die Option Ausführung starten aus.

  3. Gehen Sie im Dialogfeld Ausführung starten wie folgt vor:

    1. (Optional) Um Ihre Ausführung zu identifizieren, können Sie einen Namen angeben oder den generierten Standardnamen für die Ausführung verwenden.

      Anmerkung

      Step Functions akzeptiert Namen für Zustandsmaschinen, Ausführungen, Aktivitäten und Beschriftungen, die ASCII Nichtzeichen enthalten. Da Namen, die keine ASCII Zeichen enthalten, bei Amazon nicht funktionieren CloudWatch, empfehlen wir, nur ASCII Zeichen zu verwenden, damit Sie die Messwerte verfolgen können. CloudWatch

    2. (Optional) Geben Sie im Eingabefeld Eingabewerte im JSON Format ein, um Ihren Workflow auszuführen.

      Wenn Sie sich dafür entschieden haben, eine Demo auszuführen, müssen Sie keine Ausführungseingaben angeben.

      Anmerkung

      Wenn das von Ihnen bereitgestellte Demo-Projekt vorab aufgefüllte Eingabedaten für die Ausführung enthält, verwenden Sie diese Eingabe, um die Zustandsmaschine auszuführen.

    3. Wählen Sie Start execution (Ausführung starten) aus.

    4. Die Step Functions Functions-Konsole leitet Sie zu einer Seite weiter, die mit Ihrer Ausführungs-ID betitelt ist. Diese Seite wird als Seite mit den Ausführungsdetails bezeichnet. Auf dieser Seite können Sie die Ausführungsergebnisse im Verlauf der Ausführung oder nach deren Abschluss überprüfen.

      Um die Ausführungsergebnisse zu überprüfen, wählen Sie in der Diagrammansicht einzelne Status aus und wählen Sie dann die einzelnen Registerkarten im Einzelheiten zu den Schritten Bereich, um die Details der einzelnen Status, einschließlich Eingabe, Ausgabe und Definition, anzuzeigen. Einzelheiten zu den Ausführungsinformationen, die Sie auf der Seite mit den Ausführungsdetails einsehen können, finden Sie unterSeite mit den Ausführungsdetails — Übersicht über die Benutzeroberfläche.

Code des Zustandsautomaten aus diesem Beispiel

Die Zustandsmaschine in diesem Beispielprojekt lässt sich in Amazon integrieren, EMR indem Parameter direkt an diese Ressourcen übergeben werden. Sehen Sie sich diese Beispiel-Zustandsmaschine an, um zu sehen, wie Step Functions eine Zustandsmaschine verwendet, um die EMR Amazon-Aufgabe synchron aufzurufen, darauf wartet, dass die Aufgabe erfolgreich ist oder fehlschlägt, und den Cluster beendet.

Weitere Informationen darüber, wie Sie andere AWS Dienste steuern AWS Step Functions können, finden Sie unter. Integration anderer Dienste mit Step Functions

{ "Comment": "An example of the Amazon States Language for running jobs on Amazon EMR", "StartAt": "Create an EMR cluster", "States": { "Create an EMR cluster": { "Type": "Task", "Resource": "arn:<PARTITION>:states:::elasticmapreduce:createCluster.sync", "Parameters": { "Name": "ExampleCluster", "VisibleToAllUsers": true, "ReleaseLabel": "emr-5.26.0", "Applications": [ { "Name": "Hive" } ], "ServiceRole": "<EMR_SERVICE_ROLE>", "JobFlowRole": "<EMR_EC2_INSTANCE_PROFILE>", "LogUri": "s3://<EMR_LOG_S3_BUCKET>/logs/", "Instances": { "KeepJobFlowAliveWhenNoSteps": true, "InstanceFleets": [ { "Name": "MyMasterFleet", "InstanceFleetType": "MASTER", "TargetOnDemandCapacity": 1, "InstanceTypeConfigs": [ { "InstanceType": "m5.xlarge" } ] }, { "Name": "MyCoreFleet", "InstanceFleetType": "CORE", "TargetOnDemandCapacity": 1, "InstanceTypeConfigs": [ { "InstanceType": "m5.xlarge" } ] } ] } }, "ResultPath": "$.cluster", "Next": "Run first step" }, "Run first step": { "Type": "Task", "Resource": "arn:<PARTITION>:states:::elasticmapreduce:addStep.sync", "Parameters": { "ClusterId.$": "$.cluster.ClusterId", "Step": { "Name": "My first EMR step", "ActionOnFailure": "CONTINUE", "HadoopJarStep": { "Jar": "command-runner.jar", "Args": ["<COMMAND_ARGUMENTS>"] } } }, "Retry" : [ { "ErrorEquals": [ "States.ALL" ], "IntervalSeconds": 1, "MaxAttempts": 3, "BackoffRate": 2.0 } ], "ResultPath": "$.firstStep", "Next": "Run second step" }, "Run second step": { "Type": "Task", "Resource": "arn:<PARTITION>:states:::elasticmapreduce:addStep.sync", "Parameters": { "ClusterId.$": "$.cluster.ClusterId", "Step": { "Name": "My second EMR step", "ActionOnFailure": "CONTINUE", "HadoopJarStep": { "Jar": "command-runner.jar", "Args": ["<COMMAND_ARGUMENTS>"] } } }, "Retry" : [ { "ErrorEquals": [ "States.ALL" ], "IntervalSeconds": 1, "MaxAttempts": 3, "BackoffRate": 2.0 } ], "ResultPath": "$.secondStep", "Next": "Terminate Cluster" }, "Terminate Cluster": { "Type": "Task", "Resource": "arn:<PARTITION>:states:::elasticmapreduce:terminateCluster", "Parameters": { "ClusterId.$": "$.cluster.ClusterId" }, "End": true } } }

IAMBeispiel

Diese vom Beispielprojekt generierte Richtlinie example AWS Identity and Access Management (IAM) beinhaltet die geringsten Rechte, die für die Ausführung der Zustandsmaschine und der zugehörigen Ressourcen erforderlich sind. Es hat sich bewährt, nur die Berechtigungen in Ihre IAM Richtlinien aufzunehmen, die erforderlich sind.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "elasticmapreduce:RunJobFlow", "elasticmapreduce:DescribeCluster", "elasticmapreduce:TerminateJobFlows" ], "Resource": "*" }, { "Effect": "Allow", "Action": "iam:PassRole", "Resource": [ "arn:aws:iam::123456789012:role/StepFunctionsSample-EMRJobManagement-EMRServiceRole-ANPAJ2UCCR6DPCEXAMPLE", "arn:aws:iam::123456789012:role/StepFunctionsSample-EMRJobManagementWJALRXUTNFEMI-ANPAJ2UCCR6DPCEXAMPLE-EMREc2InstanceProfile-1ANPAJ2UCCR6DPCEXAMPLE" ] }, { "Effect": "Allow", "Action": [ "events:PutTargets", "events:PutRule", "events:DescribeRule" ], "Resource": [ "arn:aws:events:sa-east-1:123456789012:rule/StepFunctionsGetEventForEMRRunJobFlowRule" ] } ] }

Die folgende Richtlinie stellt sicher, dass addStep über ausreichende Berechtigungen verfügt.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "elasticmapreduce:AddJobFlowSteps", "elasticmapreduce:DescribeStep", "elasticmapreduce:CancelSteps" ], "Resource": "arn:aws:elasticmapreduce:*:*:cluster/*" }, { "Effect": "Allow", "Action": [ "events:PutTargets", "events:PutRule", "events:DescribeRule" ], "Resource": [ "arn:aws:events:sa-east-1:123456789012:rule/StepFunctionsGetEventForEMRAddJobFlowStepsRule" ] } ] } }

Informationen zur Konfiguration IAM bei der Verwendung von Step Functions mit anderen AWS Diensten finden Sie unterSo generiert Step Functions IAM Richtlinien für integrierte Dienste.