故障排除 - AWS 截止日期云

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

故障排除

以下程序和提示可以帮助您解决与De AWS adline Cloud服务器场和资源有关的问题。

为什么用户看不到我的农场、舰队或队列?

用户访问权限

当您的用户在 Deadline Cloud 监控器中看不到您的农场、队列或队列时,他们对您的农场和资源的访问权限可能会出现问题。

无法访问任何服务器场的用户会在 Deadline Cloud 监视器中收到 “没有农场可用” 的消息。

确认您的服务器场、队列或队列分配了正确的用户或群组
  1. 在 De AWS adline Cloud 控制台中,找到您的农场、队列或队列,然后选择访问管理

  2. 默认情况下,“群组” 选项卡处于选中状态。如果您按群组分配权限(建议这样做),则您的群组应显示在列表中并分配访问级别。

    如果该群组不在列表中,请选择添加群组为该群组分配权限。

  3. 如果您要按用户分配权限,请选择 “用户” 选项卡。您的用户应显示在列表中并具有分配的访问级别。

    如果您的用户不在列表中,请选择添加用户为该用户分配权限。

确认您已将用户分配到您的群组
  1. 在 De AWS adline Cloud 控制台中,找到您的农场、队列或队列,然后选择访问管理

  2. 默认情况下,“群组” 选项卡处于选中状态。选择群组名称以查看其成员。

  3. 如果用户未在群组中列出,则必须将其添加。

    如果您使用的是默认身份设置,则可以直接在 Identity Center 控制台中将用户添加到群组。如果您已连接到外部身份提供商(例如Okta或)Google Workspace,则可以在身份提供商中将您的用户添加到群组中。

    注意

    一些外部身份提供商会将用户而不是群组同步到 Identity Center。在这种情况下,可以考虑直接向用户分配权限,而不是按组分配权限。

有关管理用户对 Deadline Cloud 的访问权限的更多信息,请参阅在截止日期云中管理用户

为什么工人不去找我的工作?

舰队角色配置

有时,当工作人员已创建但未完成初始化且未开始处理作业时,这是因为队列角色配置不正确。

要验证是否发生了这种情况,请检查您的 CloudTrail 日志中是否存在任何拒绝访问的错误。确认访问被拒绝问题后,前往您的队列并将角色配置更新为正确的权限。有关更多信息,请参阅 Deadline Cloud 开发者指南中的CloudTrail日志

为什么我的员工在运行中停滞不前?

工作人员在退出 OpenJD 环境时陷入困境

工作人员可能会陷入长时间运行的envExit会话操作中。如果您使用的作业模板覆盖 OpenJD 模板并将环境退出操作超时设置为 5 分钟以上,则可能会发生这种情况。Deadline Cloud 监控器可以在一定程度上了解陷入这种情况的员工,但它需要将RUNNING工作人员与关联队列中的可用工作进行交叉引用。

要找到被困的员工,请在 Deadline Cloud 监视器中浏览所有车队并完成以下步骤:

  1. 在工作人员状态列中,查找RUNNING工作人员。

  2. 从舰队详细信息部分,导航到每个关联队列。

  3. 在每个关联队列中,搜索RUNNINGREADY、或的作业PENDING。如果所有关联队列在这些状态下都没有任何作业,则工作程序正在运行环境出口。

要停止处于此状态的工作器,请使用以下 AWS CLI 命令:

aws deadline update-worker \ --farm-id $FARM_ID \ --fleet-id $FLEET_ID \ --worker-id $WORKER_ID \ --status STOPPED

运行命令后,工作器代理将在程序退出时重新启动。然后,工作人员重新上线,从关联队列中运行更多作业。如果队列中包含更多任务且环境退出操作超时时间超过 5 分钟,则工作程序将再次陷入困境。如果发生这种情况,您将需要重复此过程,直到不再有工作人员无法退出。

为避免出现此问题,请在使用作业模板时将超时选项设置为不超过 5 分钟。

排除 Deadline C

有关 De AWS adline Cloud 中作业的常见问题的信息,请参阅以下主题。

为什么创建我的任务失败了?

作业可能无法通过验证检查的一些可能原因包括:

  • 作业模板不符合 OpenJD 规范。

  • 该作业包含的步骤太多。

  • 该作业包含的任务总数过多。

  • 出现内部服务错误,导致无法创建作业。

要查看作业中最大步骤和任务数的配额,请使用 Service Quotas 控制台。有关更多信息,请参阅 的配额 Deadline Cloud

为什么我的工作不兼容?

作业与队列不兼容的常见原因包括以下几点:

  • 没有队列与提交任务的队列相关联。打开 Deadline Cloud 监视器,检查队列中是否有关联的队列。有关如何查看队列的更多信息,请参阅在截止日期云中查看队列和舰队详情

  • 与队列关联的任何队列都无法满足该任务的主机要求。要进行检查,请将作业模板中的hostRequirements条目与农场中舰队的配置进行比较。确保其中一支舰队满足房东的要求。有关队列兼容性的更多信息,请参阅确定队列兼容性。要查看队列配置,请参阅在截止日期云中查看队列和舰队详情

为什么我的工作准备就绪?

你的工作似乎陷入困境的可能原因包括以下几点:READY

为什么我的工作失败了?

任务失败的原因有很多。要搜索问题,请打开 Deadline Cloud 监视器并选择失败的作业。选择失败的任务,然后查看该任务的日志。有关说明,请参阅在截止日期云中查看会话和工作人员日志

  • 如果您看到许可证错误,或者由于软件没有有效的许可证而出现水印,请确保工作人员可以连接到所需的许可证服务器。有关更多信息,请参阅 De adline Cloud 开发者指南中的将客户管理的车队连接到许可证端点

  • 上次会话操作消息或流程退出代码可能会提供有关任务失败原因的信息。如果您使用Windows的是退出码为负值,请尝试搜索退出代码的未签名版本:

    2,147,483,647 - |your exit code|

为什么我的步骤处于待处理状态?

当一个或多个依赖项未完成时,步骤可能会保持该PENDING状态。你可以使用 Deadline Cloud 监视器检查依赖关系的状态。有关说明,请参阅在截止日期云中查看步骤

其他资源

您可以在上找到更多信息和资源GitHub