本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS 适用于 TensorFlow 2.19 训练的 Deep Learning Containers SageMaker
AWS 适用于亚马逊 SageMaker 的 Dee@@ p Learning
此版本包括用于在 CPU 和 GPU 上训练的容器镜像,针对性能和扩展进行了优化 AWS。这些 Docker 镜像已经过 SageMaker 服务测试,提供稳定版本的 NVIDIA CUDA、cuDNN 和其他组件,为运行深度学习工作负载提供优化的用户体验。 AWS对这些映像中的所有软件组件进行安全漏洞扫描,并根据 AWS 安全最佳实践进行更新或修补。这些新 DLC 专为在 SageMaker 训练服务中使用而设计。
可用容器列表可以在我们的文档中找到。有关最新更新,另请参阅 aws/ 存储deep-learning-containers GitHub 库
发布说明
TensorFlow 为 2.19 引入了容器 SageMaker
有关 TensorFlow 2.19 训练 DLCs的更多详情,请参阅 v
1.0-tf-sagemaker-2.19.0-tr-py312。 由于 Nvidia 驱动程序不兼容,此 DLC SageMaker 无法在 P2 实例系列上运行。
有关最新更新,请参阅 aws/ 存储deep-learning-containers GitHub 库
Package 弃用
Sagemaker Tensorflow
软件包未在 TF2 .16 DLCs 及以上版本中维护,因此不随此 DLC 一起提供。因此,这些 Sag DLCs emaker 将不支持管道模式。 TF 2.14 DLCs 及以上版本的 Horovod
包裹已停止发货。客户将能够通过forderedlistlist遵循指南 来安装horovod库,并将其安装在他们的 DLCs 分布式训练作业上。 SageMaker TF 2.14 DLCs 及更高版本不包括@@ 数据并行。此功能在我们的最新 PyTorch 图像中仍然可用。
在 CUDA 版本中,在 .18 TF2 之后将禁用 Tensorrt 支持以改善代码运行状况,请参阅 TF 2.18 版本。
安全建议
AWS 建议客户监控安全公告中的关键AWS 安全
更新。
Python 支持
已安装的深度学习框架的容器中支持 Python 3.12。
CPU 实例类型支持
容器支持 CPU 实例类型。 TensorFlow 是在支持 OneDNN 库的基础上构建的。
GPU 实例类型支持
这些容器支持 GPU 实例类型,并包含支持 GPU 的 forderedListlowing 软件组件。
CUDA 12.5
cudnn 9.3.0.75-1+cuda12.5
NCCL 2.23.4-1+cuda12.5
AWS 地区支持
这些容器在以下排序列表区域可用:
区域 |
代码 |
---|---|
美国东部(俄亥俄州) |
us-east-2 |
美国东部(弗吉尼亚州北部) |
us-east-1 |
美国西部(北加利福尼亚) |
us-west-1 |
美国西部(俄勒冈州) |
us-west-2 |
非洲(开普敦) |
af-south-1 |
亚太地区(香港) |
ap-east-1 |
亚太地区(海得拉巴) |
ap-south-2 |
亚太地区(雅加达) |
ap-southeast-3 |
亚太地区(马来西亚) |
ap-southeast-5 |
亚太地区(墨尔本) |
ap-southeast-4 |
亚太地区(孟买) |
ap-south-1 |
亚太地区(大阪) |
ap-northeast-3 |
亚太地区(首尔) |
ap-northeast-2 |
亚太地区(新加坡) |
ap-southeast-1 |
亚太地区(悉尼) |
ap-southeast-2 |
亚太地区(台北) |
ap-east-2 |
亚太地区(泰国) |
ap-southeast-7 |
亚太地区(东京) |
ap-northeast-1 |
加拿大(中部) |
ca-central-1 |
加拿大(卡尔加里) |
ca-west-1 |
欧洲(法兰克福) |
eu-central-1 |
欧洲地区(爱尔兰) |
eu-west-1 |
欧洲地区(伦敦) |
eu-west-2 |
欧洲地区(米兰) |
eu-south-1 |
欧洲地区(巴黎) |
eu-west-3 |
欧洲(西班牙) |
eu-south-2 |
欧洲地区(斯德哥尔摩) |
eu-north-1 |
欧洲(苏黎世) |
eu-central-2 |
以色列(特拉维夫) |
il-central-1 |
墨西哥(中部) |
mx-central-1 |
中东(巴林) |
me-south-1 |
中东(阿联酋) |
me-central-1 |
南美洲(圣保罗) |
sa-east-1 |
构建和测试
建立在:c5.18xlarge
经过测试的 DLC 图片:t3.2xlarge、m5.16xlarge、c5.18xlarge、g4dn.4xlarge、g4dn.8xlarge、g5.24xlarge、p4de.24xlarge、p5.48xlarge、ml.p4de.24xlarge、ml.p5.48xlarge、ml.p5.48xlarge
已知问题
使用 s3 文件系统时,Tensorflow IO
软件包会引发异常(问题链接)。 因此,在上游提供修复程序之前,此 DLC 将不支持依赖于 Tensorflow IO 的 s3 功能的功能。很少有这样不支持的功能是 s3 插件、s3 检查点、s3 记录获取和 Sagemaker 上的 Parameter Server 训练。