AWSSupport-TroubleshootAWSBatchJob - AWS Systems Manager Referensi buku runbook otomatisasi

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWSSupport-TroubleshootAWSBatchJob

Deskripsi

AWSSupport-TroubleshootAWSBatchJobRunbook membantu Anda memecahkan masalah yang mencegah AWS Batch pekerjaan berkembang dari status ke status. RUNNABLE STARTING

Bagaimana cara kerjanya?

Runbook ini melakukan pemeriksaan berikut:

  • Jika lingkungan komputasi dalam DISABLED keadaan INVALID atau.

  • Jika Max vCPU parameter lingkungan komputasi cukup besar untuk mengakomodasi volume pekerjaan dalam antrian pekerjaan.

  • Jika pekerjaan membutuhkan lebih banyak vCPUs atau sumber daya memori daripada yang dapat disediakan oleh tipe instance lingkungan komputasi.

  • Jika pekerjaan harus berjalan pada instance GPU berbasis tetapi lingkungan komputasi tidak dikonfigurasi untuk menggunakan instance GPU berbasis.

  • Jika grup Auto Scaling untuk lingkungan komputasi gagal meluncurkan instance.

  • Jika instans yang diluncurkan dapat bergabung dengan cluster Amazon Elastic Container Service (AmazonECS) yang mendasarinya; jika tidak, instans menjalankan runbook AWSSupport-T roubleshootECSContainer Instance.

  • Jika ada masalah izin yang memblokir tindakan tertentu yang diperlukan untuk menjalankan pekerjaan.

penting
  • Runbook ini harus dimulai di AWS Wilayah yang sama dengan pekerjaan Anda yang terjebak dalam RUNNABLE status.

  • Runbook ini dapat dimulai untuk AWS Batch pekerjaan yang dijadwalkan di AmazonECS, atau instans AWS Fargate Amazon Elastic Compute Cloud (AmazonEC2). Jika otomatisasi dimulai untuk AWS Batch pekerjaan di Amazon Elastic Kubernetes Service EKS (Amazon), inisiasi berhenti.

  • Jika instance tersedia untuk menjalankan pekerjaan tetapi gagal mendaftarkan ECS klaster Amazon, runbook ini memulai runbook AWSSupport-TroubleshootECSContainerInstance otomatisasi untuk mencoba menentukan alasannya. Untuk informasi lebih lanjut, rujuk runbook AWSSupport-T roubleshootECSContainer Instance.

Jalankan Otomasi ini (konsol)

Jenis dokumen

Otomatisasi

Pemilik

Amazon

Platform

Linux,macOS, Windows

Parameter

  • AutomationAssumeRole

    Tipe: String

    Deskripsi: (Opsional) Nama Sumber Daya Amazon (ARN) dari peran AWS Identity and Access Management (IAM) yang memungkinkan Otomasi Systems Manager untuk melakukan tindakan atas nama Anda. Jika tidak ada peran yang ditentukan, Systems Manager Automation menggunakan izin pengguna yang memulai runbook ini.

  • JobId

    Tipe: String

    Deskripsi: (Wajib) ID dari AWS Batch Job yang terjebak dalam RUNNABLE status.

    Pola yang Diizinkan: ^[a-f0-9]{8}(-[a-f0-9]{4}){3}-[a-f0-9]{12}(:[0-9]+)?(#[0-9]+)?$

IAMIzin yang diperlukan

AutomationAssumeRoleParameter memerlukan tindakan berikut untuk menggunakan runbook dengan sukses.

  • autoscaling:DescribeAutoScalingGroups

  • autoscaling:DescribeScalingActivities

  • batch:DescribeComputeEnvironments

  • batch:DescribeJobs

  • batch:DescribeJobQueues

  • batch:ListJobs

  • cloudtrail:LookupEvents

  • ec2:DescribeIamInstanceProfileAssociations

  • ec2:DescribeInstanceAttribute

  • ec2:DescribeInstances

  • ec2:DescribeInstanceTypeOfferings

  • ec2:DescribeInstanceTypes

  • ec2:DescribeNetworkAcls

  • ec2:DescribeRouteTables

  • ec2:DescribeSecurityGroups

  • ec2:DescribeSpotFleetInstances

  • ec2:DescribeSpotFleetRequests

  • ec2:DescribeSpotFleetRequestHistory

  • ec2:DescribeSubnets

  • ec2:DescribeVpcEndpoints

  • ec2:DescribeVpcs

  • ecs:DescribeClusters

  • ecs:DescribeContainerInstances

  • ecs:ListContainerInstances

  • iam:GetInstanceProfile

  • iam:GetRole

  • iam:ListRoles

  • iam:PassRole

  • iam:SimulateCustomPolicy

  • iam:SimulatePrincipalPolicy

  • ssm:DescribeAutomationExecutions

  • ssm:DescribeAutomationStepExecutions

  • ssm:GetAutomationExecution

  • ssm:StartAutomationExecution

  • sts:GetCallerIdentity

Instruksi

  1. Arahkan ke AWSSupport-T roubleshootAWSBatch Job di AWS Systems Manager Konsol.

  2. Pilih Jalankan Otomasi

  3. Untuk parameter input, masukkan yang berikut ini:

    • AutomationAssumeRole(Opsional):

      Nama Sumber Daya Amazon (ARN) dari peran AWS Identity and Access Management (IAM) yang memungkinkan Otomasi Systems Manager untuk melakukan tindakan atas nama Anda. Jika tidak ada peran yang ditentukan, Systems Manager Automation menggunakan izin pengguna yang memulai runbook ini.

    • JobId(Diperlukan):

      ID dari AWS Batch Job yang terjebak dalam RUNNABLE status.

    Input parameters form with AutomationAssumeRole and JobId fields for AWS Batch job configuration.
  4. Pilih Jalankan.

  5. Perhatikan bahwa otomatisasi dimulai.

  6. Dokumen melakukan langkah-langkah berikut:

    • PreflightPermissionChecks:

      Melakukan pemeriksaan IAM izin preflight terhadap pengguna/peran yang memulai. Jika ada izin yang hilang, langkah ini memberikan API Tindakan yang hilang di bagian output global.

    • ProceedOnlyIfUserHasPermission:

      Cabang berdasarkan jika Anda memiliki izin untuk semua tindakan yang diperlukan untuk runbook.

    • AWSBatchJobEvaluation:

      Melakukan pemeriksaan terhadap AWS Batch Job yang memverifikasi bahwa itu ada dan berada dalam RUNNABLE status.

    • ProceedOnlyIfBatchJobExistsAndIsinRunnableNegara:

      Cabang berdasarkan apakah pekerjaan itu ada dan dalam RUNNABLE status.

    • BatchComputeEnvironmentEvaluation:

      Melakukan pemeriksaan terhadap Lingkungan AWS Batch Komputasi.

    • ProceedOnlyIfComputeEnvironmentChecksAreOK:

      Cabang berdasarkan apakah pemeriksaan lingkungan komputasi berhasil.

    • UnderlyingInfraEvaluation:

      Melakukan pemeriksaan terhadap Grup Auto Scaling atau Permintaan Armada Spot yang mendasarinya.

    • ProceedOnlyIfInstancesNotJoiningEcsCluster:

      Cabang berdasarkan jika ada contoh yang tidak bergabung dengan ECS cluster Amazon.

    • EcsAutomationRunner:

      Menjalankan ECS otomatisasi Amazon untuk instans yang tidak bergabung dengan cluster.

    • ExecutionResults:

      Menghasilkan output berdasarkan langkah sebelumnya.

  7. Setelah selesai, HTML file URI untuk laporan penilaian disediakan:

    Tautan Konsol S3 dan Amazon URI S3 untuk Laporan tentang keberhasilan eksekusi runbook

    Execution result summary showing errors in compute environment setup and job queue.

Referensi

Otomatisasi Systems Manager