使用 Terraform 对集群部署进行故障排除 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Terraform 对集群部署进行故障排除

本节与使用 Terraform 部署的集群相关。

ParallelCluster 未找到 API

由于找不到 ParallelCluster API,计划可能会失败。在这种情况下,返回的错误将是这样的:

Planning failed. Terraform encountered an error while generating this plan. ╷ │ Error: Unable to retrieve ParallelCluster API cloudformation stack. │ │ with provider["registry.terraform.io/aws-tf/aws-parallelcluster"], │ on providers.tf line 6, in provider "aws-parallelcluster": │ 6: provider "aws-parallelcluster" { │ │ operation error CloudFormation: DescribeStacks, https response error StatusCode: 400, RequestID: REQUEST_ID, api error ValidationError: Stack with id PCAPI_STACK_NAME does not exist

要解决此错误,请在要创建集群的账户中部署 ParallelCluster API。请参阅 使用 Terraform 创建集群

用户未获得调用 ParallelCluster API 的权限

计划可能会失败,因为您假设部署您的 Terraform 项目的 IAM 角色/用户没有与 API 交互的权限。 ParallelCluster 在这种情况下,返回的错误将是这样的:

Planning failed. Terraform encountered an error while generating this plan. │ Error: 403 Forbidden │ │ with module.parallelcluster_clusters.module.clusters[0].pcluster_cluster.managed_configs["DemoCluster01"], │ on .terraform/modules/parallelcluster_clusters/modules/clusters/main.tf line 35, in resource "pcluster_cluster" "managed_configs": │ 35: resource "pcluster_cluster" "managed_configs" { │ │ {{"Message":"User: USER_ARN is not authorized to perform: execute-api:Invoke on resource: PC_API_REST_RESOURCE with an explicit deny"} │ }

要解决此错误,请配置 ParallelCluster 提供商,使其使用 ParallelCluster API 角色与 API 交互。

provider "aws-parallelcluster" { region = var.region profile = var.profile api_stack_name = var.api_stack_name **use_user_role** **= true** }