Dee AWS p Learning Containers 中的监控和使用跟踪 - AWS 深度学习容器

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Dee AWS p Learning Containers 中的监控和使用跟踪

你的 D AWS eep Learning Containers 不附带监控工具。有关监控的信息,请参阅监控和优化、GPU监控亚马逊、监控亚马逊EC2监控亚马逊ECS监控 A EKS mazon SageMaker Studio

使用情况跟踪

AWS 使用客户反馈和使用信息来提高我们向客户提供的服务和软件的质量。我们在支持的 Dee AWS p Learning Containers 中增加了使用数据收集功能,以便更好地了解客户的使用情况并指导未来的改进。默认情况下,Deep Learning Containers 的使用情况跟踪处于激活状态。客户可以随时更改其设置,以激活或停用使用情况跟踪。

Dee AWS p Learning Containers 的使用情况跟踪会收集用于容器的实例 ID框架、框架版本、容器类型和 Python 版本。 AWS 还会记录它接收此元数据的事件时间。

不会收集或保留有关容器内使用的命令的信息。不会收集或保留有关容器的其他信息。

要选择退出使用情况跟踪,请将OPT_OUT_TRACKING环境变量设置为 true。

OPT_OUT_TRACKING=true

故障率跟踪

使用第一方 Dee Amazon SageMaker AWS p Learning Containers 容器时, SageMaker 团队将收集故障率元数据以提高 AWS 深度学习容器的质量。默认情况下,Dee AWS p Learning Containers 的故障率跟踪处于活动状态。客户可以在创建 Amazon SageMaker 端点时更改其设置以激活或停用故障率跟踪。

Dee AWS p Learning Containers 的故障率跟踪会收集实例 IDModelServer 名称ErrorTypeModelServer 版本ErrorCode。 AWS 还会记录它接收此元数据的事件时间。

不会收集或保留有关容器内使用的命令的信息。不会收集或保留有关容器的其他信息。

要选择退出故障率跟踪,请将OPT_OUT_TRACKING环境变量设置为true

OPT_OUT_TRACKING=true

以下框架版本中的使用情况跟踪

不再支持以下框架版本:

  • TensorFlow 1.15

  • TensorFlow 2.0

  • TensorFlow 2.1

  • PyTorch 1.2

  • PyTorch 1.3.1

  • MXNet 1.6

有关我们支持政策的完整说明,请参阅框架Support 政策

虽然我们建议更新到支持的 Deep Learning Containers,但要选择退出使用这些框架的 Deep Learning Containers 的使用情况跟踪,请将OPT_OUT_TRACKING环境变量设置为 true,然后使用自定义入口点来禁用对以下服务的调用: