Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWSSupport-TroubleshootAWSBatchJob
Beschreibung
Das AWSSupport-TroubleshootAWSBatchJob
Runbook hilft Ihnen bei der Behebung von Problemen, die verhindern, dass ein AWS Batch Job vom aktuellen Status abweichtRUNNABLE
. STARTING
Wie funktioniert es?
Dieses Runbook führt die folgenden Prüfungen durch:
-
Wenn sich die Rechenumgebung im
DISABLED
StatusINVALID
Oder befindet. -
Wenn der
Max vCPU
Parameter der Rechenumgebung groß genug ist, um das Auftragsvolumen in der Auftragswarteschlange aufzunehmen. -
Wenn die Jobs mehr V CPUs - oder Speicherressourcen benötigen, als die Instanztypen der Rechenumgebung bereitstellen können.
-
Wenn die Jobs auf GPU-basierten Instanzen ausgeführt werden sollen, die Rechenumgebung jedoch nicht für die Verwendung GPU-basierter Instanzen konfiguriert ist.
-
Wenn die Auto Scaling Scaling-Gruppe für die Rechenumgebung keine Instances starten konnte.
-
Wenn die gestarteten Instances dem zugrunde liegenden Amazon Elastic Container Service (Amazon ECS) -Cluster beitreten können; andernfalls wird das AWSSupport-TroubleshootECSContainerInstanceRunbook ausgeführt.
-
Wenn aufgrund eines Berechtigungsproblems bestimmte Aktionen blockiert werden, die zur Ausführung des Jobs erforderlich sind.
Wichtig
-
Dieses Runbook muss in derselben AWS Region initiiert werden wie Ihr Job, der im
RUNNABLE
Status „hängengeblieben“ ist. -
Dieses Runbook kann für AWS Batch Jobs initiiert werden, die auf Amazon ECS AWS Fargate - oder Amazon Elastic Compute Cloud (Amazon EC2) -Instances geplant sind. Wenn die Automatisierung für einen AWS Batch Job auf Amazon Elastic Kubernetes Service (Amazon EKS) initiiert wird, wird die Initiierung gestoppt.
-
Wenn Instances für die Ausführung des Jobs verfügbar sind, der Amazon ECS-Cluster jedoch nicht registriert werden kann, initiiert dieses Runbook das
AWSSupport-TroubleshootECSContainerInstance
Automatisierungs-Runbook, um herauszufinden, warum. Weitere Informationen finden Sie im Runbook. AWSSupport-TroubleshootECSContainerInstance
Führen Sie diese Automatisierung aus (Konsole)
Art des Dokuments
Automatisierung
Eigentümer
Amazon
Plattformen
Linux, macOS, Windows
Parameter
-
AutomationAssumeRole
Typ: Zeichenfolge
Beschreibung: (Optional) Der Amazon-Ressourcenname (ARN) der AWS Identity and Access Management (IAM) -Rolle, mit der Systems Manager Automation die Aktionen in Ihrem Namen ausführen kann. Wenn keine Rolle angegeben ist, verwendet Systems Manager Automation die Berechtigungen des Benutzers, der dieses Runbook startet.
-
JobId
Typ: Zeichenfolge
Beschreibung: (Erforderlich) Die ID des AWS Batch Job, der im
RUNNABLE
Status hängengeblieben ist.Zulässiges Muster:
^[a-f0-9]{8}(-[a-f0-9]{4}){3}-[a-f0-9]{12}(:[0-9]+)?(#[0-9]+)?$
Erforderliche IAM-Berechtigungen
Der AutomationAssumeRole
Parameter erfordert die folgenden Aktionen, um das Runbook erfolgreich zu verwenden.
-
autoscaling:DescribeAutoScalingGroups
-
autoscaling:DescribeScalingActivities
-
batch:DescribeComputeEnvironments
-
batch:DescribeJobs
-
batch:DescribeJobQueues
-
batch:ListJobs
-
cloudtrail:LookupEvents
-
ec2:DescribeIamInstanceProfileAssociations
-
ec2:DescribeInstanceAttribute
-
ec2:DescribeInstances
-
ec2:DescribeInstanceTypeOfferings
-
ec2:DescribeInstanceTypes
-
ec2:DescribeNetworkAcls
-
ec2:DescribeRouteTables
-
ec2:DescribeSecurityGroups
-
ec2:DescribeSpotFleetInstances
-
ec2:DescribeSpotFleetRequests
-
ec2:DescribeSpotFleetRequestHistory
-
ec2:DescribeSubnets
-
ec2:DescribeVpcEndpoints
-
ec2:DescribeVpcs
-
ecs:DescribeClusters
-
ecs:DescribeContainerInstances
-
ecs:ListContainerInstances
-
iam:GetInstanceProfile
-
iam:GetRole
-
iam:ListRoles
-
iam:PassRole
-
iam:SimulateCustomPolicy
-
iam:SimulatePrincipalPolicy
-
ssm:DescribeAutomationExecutions
-
ssm:DescribeAutomationStepExecutions
-
ssm:GetAutomationExecution
-
ssm:StartAutomationExecution
-
sts:GetCallerIdentity
Anweisungen
-
Navigieren Sie AWSSupport-TroubleshootAWSBatchJob
in der AWS Systems Manager Konsole zu. -
Wählen Sie Automatisierung ausführen
-
Geben Sie für Eingabeparameter Folgendes ein:
-
AutomationAssumeRole(Fakultativ):
Der Amazon-Ressourcenname (ARN) der Rolle AWS Identity and Access Management (IAM), der es Systems Manager Automation ermöglicht, die Aktionen in Ihrem Namen durchzuführen. Wenn keine Rolle angegeben ist, verwendet Systems Manager Automation die Berechtigungen des Benutzers, der dieses Runbook startet.
-
JobId(Erforderlich):
Die ID des AWS Batch Job, der im
RUNNABLE
Status hängengeblieben ist.
-
-
Wählen Sie Ausführen aus.
-
Beachten Sie, dass die Automatisierung initiiert wird.
-
Das Dokument führt die folgenden Schritte aus:
-
PreflightPermissionChecks:
Führt Preflight-IAM-Berechtigungsprüfungen für den Benutzer/die Rolle durch, die den Vorgang initiiert hat. Wenn Berechtigungen fehlen, werden in diesem Schritt die API-Aktionen angezeigt, die im globalen Ausgabebereich fehlen.
-
ProceedOnlyIfUserHasPermission:
Verzweigungen basieren darauf, ob Sie über Berechtigungen für alle erforderlichen Aktionen für das Runbook verfügen.
-
AWSBatchJobEvaluation:
Führt Prüfungen anhand des AWS Batch Job durch, um zu überprüfen, ob er vorhanden ist und sich im
RUNNABLE
Status befindet. -
ProceedOnlyIfBatchJobExistsAndIsinRunnableStatus:
Verzweigt je nachdem, ob der Job existiert und ob er sich im
RUNNABLE
Status befindet. -
BatchComputeEnvironmentEvaluation:
Führt Prüfungen anhand der AWS Batch Rechenumgebung durch.
-
ProceedOnlyIfComputeEnvironmentChecksAreOK:
Verzweigungen, die darauf basieren, ob die Prüfungen der Rechenumgebung erfolgreich waren.
-
UnderlyingInfraEvaluation:
Führt Prüfungen anhand der zugrunde liegenden Auto Scaling Group oder Spot Fleet Request durch.
-
ProceedOnlyIfInstancesNotJoiningEcsCluster:
Branches basieren darauf, ob es Instances gibt, die dem Amazon ECS-Cluster nicht beitreten.
-
EcsAutomationRunner:
Führt die Amazon ECS-Automatisierung für die Instances aus, die dem Cluster nicht beitreten.
-
ExecutionResults:
Generiert eine Ausgabe auf der Grundlage der vorherigen Schritte.
-
-
Nach Abschluss des Vorgangs wird der URI für die HTML-Datei des Bewertungsberichts bereitgestellt:
S3-Konsolenlink und Amazon S3 S3-URI für den Bericht über die erfolgreiche Ausführung des Runbooks
Referenzen
Systems Manager Automation