可用选项 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

可用选项

下表显示了您可以用来自定义笔记本作业的所有可用选项,无论是在 Studio、本地 Jupyter 环境中运行笔记本作业,还是使用 Python SageMaker 。SDK该表包括自定义选项的类型、描述、有关如何使用该选项的其他指南、Studio 中该选项的字段名称(如果可用)以及 SageMaker Python 中笔记本作业步骤的参数名称SDK(如果有)。

对于某些选项,您还可以预设自定义默认值,这样您就不必在每次设置笔记本作业时都指定它们。对于 Studio,这些选项包括角色输入文件夹、输出文件夹KMS密钥 ID,并在下表中指定。如果您为这些选项预设了自定义默认值,则这些字段将在您创建 notebook 作业时预先填充在 Create Job 表单中。有关如何在 Studio 和本地 Jupyter 环境中创建自定义默认值的详细信息,请参阅。为本地笔记本设置默认选项

SageMaker SDK还为您提供了设置智能默认值的选项,这样您就不必在创建时指定这些参数NotebookJobStep。这些参数是roles3_root_uris3_kms_keyvolume_kms_keysubnetssecurity_group_ids、和在下表中指定。有关如何设置智能默认值的信息,请参阅设置默认选项

自定义选项 描述 Studio 特定指南 本地 Jupyter 环境指南 SageMaker Python SDK 指南
作业名称 您的作业名称应显示在 “笔记本作业” 仪表板中。 Field Job 名称 与 Studio 相同。 参数notebook_job_name。默认值为 None
图像 用于在所选计算类型上以非交互方式运行笔记本的容器映像。 实地图片。此字段默认为笔记本的当前映像。如果需要,将此字段从默认值更改为自定义值。如果 Studio 无法推断出此值,则表单会显示一个验证错误,要求您指定该值。此图片可以是自定义图片、bring-your-own 图片或可用的 Amazon SageMaker 图片。有关笔记本调度程序支持的可用 SageMaker 图像的列表,请参阅亚马逊 SageMaker 图片可用于 Studio Classic 实地图片。此字段需要一个 ECR URI Docker 镜像,该镜像可以在所选计算类型上运行提供的笔记本。默认情况下,调度器扩展使用预构建的 SageMaker Docker 镜像——基于 Python 2.0。这是来自 boto3 和 Python 3 内核 DockerHub 的官方 Python 3.8 图片。 AWS CLI您也可以提供任何ECRURI符合笔记本自定义图像规范的图片。有关详细信息,请参阅自定义 SageMaker 图像规格。此映像应包含笔记本运行所需的所有内核和库。 必填项。参数image_uri。URI已打开 Docker 镜像的位置。ECR您可以使用特定的 SageMaker 分发映像或基于这些映像的自定义映像,也可以使用预先安装的 notebook 作业依赖项满足其他要求的自己的映像。有关详细信息,请参阅 SageMakerPython SDK 笔记本作业的图像限制
实例类型 用于运行笔记本作业的EC2实例类型。Notebook 作业使用 T SageMaker raining Job 作为计算层,因此指定的实例类型应为 Tra SageMaker ining 支持的实例类型。 字段计算类型。默认值为 ml.m5.large 与 Studio 相同。 参数instance_type。默认值为 ml.m5.large
内核 用于运行笔记本作业的 Jupyter 内核。 字段内核。此字段默认为笔记本的当前内核。如果需要,将此字段从默认值更改为自定义值。如果 Studio 无法推断出此值,则表单会显示一个验证错误,要求您指定该值。 字段内核。此内核应出现在映像中并遵循 Jupyter 内核规范。该字段默认为在基本 Python 2.0 镜像中找到的 Python3 内核。 SageMaker 如果需要,请将此字段更改为自定义值。 必填项。参数kernel_name。此内核应出现在映像中并遵循 Jupyter 内核规范。要查看图像的内核标识符,请参阅 (LINK)。
SageMaker 会话 委托 SageMaker 服务调用的基础 SageMaker 会话。 不适用 不适用 参数sagemaker_session。如果未指定,则使用默认配置链创建一个。
角色 ARN 该角色的 Amazon 资源名称 (ARN) 用于笔记本作业。 现场角色ARN。此字段默认为 Studio 执行角色。如果需要,请将此字段更改为自定义值。
注意

如果 Studio 无法推断出此值,则 “角色 ARN” 字段为空。在这种情况下,请插入ARN要使用的。

现场角色ARN。此字段默认为任何前缀为 SagemakerJupyterScheduler 的角色。如果您有多个带有该前缀的角色,则扩展程序会选择其中一个。如果需要,请将此字段更改为自定义值。对于此字段,您可以设置自己的用户默认值,只要您创建新的作业定义,就会预填充该默认值。有关详细信息,请参阅为本地笔记本设置默认选项 参数role。如果在 SageMaker 笔记本或 SageMaker Studio 笔记本中运行,SDK则默认为 SageMaker 默认IAM角色。否则,它会抛出。ValueError允许智能默认设置。
输入笔记本 您计划运行的笔记本的名称。 必填项。字段输入文件 与 Studio 相同。 必填项。参数。input_notebook
输入文件夹 包含您的输入的文件夹。作业输入(包括输入笔记本和任何可选的启动或初始化脚本)都放在此文件夹中。 字段输入文件夹。如果您不提供文件夹,则调度器会为您的输入创建一个默认 Amazon S3 存储桶。 与 Studio 相同。对于此字段,您可以设置自己的用户默认值,只要您创建新的作业定义,就会预填充该默认值。有关详细信息,请参阅为本地笔记本设置默认选项 不适用。输入文件夹放置在参数指定的位置内s3_root_uri
输出文件夹 包含您的输出的文件夹。作业输出(包括输出笔记本和日志)都放在此文件夹中。 字段输出文件夹。如果您未指定文件夹,则调度器会为您的输出创建一个默认 Amazon S3 存储桶。 与 Studio 相同。对于此字段,您可以设置自己的用户默认值,只要您创建新的作业定义,就会预填充该默认值。有关详细信息,请参阅为本地笔记本设置默认选项 不适用。输出文件夹放置在参数指定的位置内s3_root_uri
参数 要传递给笔记本作业的变量和值的字典。 字段参数。您需要对笔记本进行参数化才能接受参数。 与 Studio 相同。 参数parameters。您需要对笔记本进行参数化才能接受参数。
其他(文件或文件夹)依赖关系 笔记本作业上传到 s3 暂存文件夹的文件或文件夹依赖关系列表。 不支持。 不支持。 参数additional_dependencies。笔记本作业会将这些依赖项上传到 S3 暂存文件夹,以便可以在执行期间使用它们。
S3 根目录 URI 包含您的输入的文件夹。作业输入(包括输入笔记本和任何可选的启动或初始化脚本)都放在此文件夹中。 不适用。使用输入文件夹输出文件夹 与 Studio 相同。 参数s3_root_uri。默认为默认 S3 存储桶。允许智能默认设置。
环境变量 您要覆盖的任何现有环境变量,或者要在笔记本中引入和使用的新环境变量。 字段环境变量 与 Studio 相同。 参数environment_variables。默认值为 None
标签 附加到作业的标签列表。 不适用 不适用 参数tags。默认值为 None。您的标签控制 Studio 用户界面如何捕获和显示管道创建的作业。有关详细信息,请参阅在 Studio 用户界面控制面板中查看你的笔记本作业
启动脚本 笔记本启动菜单中预加载的脚本,您可以选择在运行笔记本之前运行该脚本。 现场启动脚本。选择启动时在映像上运行的生命周期配置 (LCC) 脚本。
注意

启动脚本在 Studio 环境之外的 Shell 中运行。因此,此脚本不能依赖于 Studio 本地存储、环境变量或应用程序元数据(/opt/ml/metadata 中)。此外,如果您使用启动脚本和初始化脚本,则启动脚本将首先运行。

不支持。 不支持。
初始化脚本 指向可在笔记本启动时运行的本地脚本的路径。 字段初始化脚本。输入本地脚本或生命周期配置 (LCC) 脚本所在EFS的文件路径。如果您使用启动脚本和初始化脚本,则启动脚本将首先运行。
注意

初始化脚本源自与笔记本作业相同的 Shell。之前描述的启动脚本则不是这种情况。此外,如果您使用启动脚本和初始化脚本,则启动脚本将首先运行。

字段初始化脚本。输入本地脚本或生命周期配置 (LCC) 脚本所在的本地文件路径。 参数initialization_script。默认值为 None
最大重试次数 Studio 尝试重新运行失败作业的次数。 字段最大重试次数。默认值为 1。 与 Studio 相同。 参数max_retry_attempts。默认值为 1。
最大运行时间(以秒为单位) 笔记本作业在停止之前可以运行的最长时间(以秒为单位)。如果您同时配置了最大运行时间最大重试次数,则每次重试都会应用该运行时间。如果在这段时间内未完成作业,则其状态将设置为 Failed 字段最大运行时间(以秒为单位)。默认值为 172800 seconds (2 days) 与 Studio 相同。 参数max_runtime_in_seconds。默认值为 172800 seconds (2 days)
重试策略 重试策略列表,用于管理失败时应采取的操作。 不支持。 不支持。 参数retry_policies。默认值为 None
添加StepStepCollection依赖关系 作业所依赖的StepCollection名称Step或实例的列表。 不支持。 不支持。 参数depends_on。默认值为 None。使用它来定义工作流图中步骤之间的显式依赖关系。
卷大小 训练期间用于存储输入和输出数据的存储量的大小(以 GB 为单位)。 不支持。 不支持。 参数volume_size。默认为 30GB。
加密容器之间的流量 一个标志,用于指定是否为训练作业加密训练容器之间的流量。 不适用。默认情况下启用。 不适用。默认情况下启用。 参数encrypt_inter_container_traffic。默认值为 True
配置作业加密 一个指示符,指示您要加密笔记本作业输出和/或作业实例卷。 字段配置作业加密。选中此框可选择加密。如果不选中,则使用账户的默认KMS密钥对任务输出进行加密,并且不会对作业实例卷进行加密。 与 Studio 相同。 不支持。
输出加密密KMS钥 如果要自定义用于笔记本作业输出的加密密钥,则使用此密钥。KMS仅当您选中了配置作业加密时,此字段才适用。 字段输出加密KMS密钥。如果您未指定此字段,则使用默认 Amazon S3 KMS 密钥KMS使用 SSE-加密您的笔记本任务输出。此外,如果您自己创建 Amazon S3 存储桶并使用加密,则会保留您的加密方法。 与 Studio 相同。对于此字段,您可以设置自己的用户默认值,只要您创建新的作业定义,就会预填充该默认值。有关详细信息,请参阅为本地笔记本设置默认选项 参数s3_kms_key。默认值为 None。允许智能默认设置。
Job 实例卷加密KMS密钥 要加密任务实例卷时使用的密KMS钥。仅当您选中了配置作业加密时,此字段才适用。 Field Job 实例卷加密KMS密钥 Field Job 实例卷加密KMS密钥。对于此字段,您可以设置自己的用户默认值,只要您创建新的作业定义,就会预填充该默认值。有关详细信息,请参阅为本地笔记本设置默认选项 参数volume_kms_key。默认值为 None。允许智能默认设置。
使用虚拟私有云运行此作业(适用于VPC用户) 指示您要在虚拟私有云中运行此作业 (VPC)。为了提高安全性,建议您使用私有的VPC。 F ield 使用虚拟私有云来运行此作业。如果要使用,请选中此框VPC。至少要创建以下VPC端点,以使您的笔记本作业能够私下连接到这些 AWS 资源:
如果您选择使用VPC,则需要在以下选项中指定至少一个私有子网和至少一个安全组。如果不使用任何私有子网,则需要考虑其他配置选项。有关详细信息,请参阅中约束和注意事项不支持的公有VPC子网
与 Studio 相同。 不适用
子网(适用于VPC用户) 您的子网。此字段必须包含至少一个子网,最多五个子网,并且提供的所有子网都应为私有子网。有关详细信息,请参阅中约束和注意事项不支持的公有VPC子网 字段子网。此字段默认为与 Studio 域关联的子网,但您可以根据需要更改此字段。 字段子网。调度程序无法检测到您的子网,因此您需要输入为您的子网配置的所有子网。VPC 参数subnets。默认值为 None。允许智能默认设置。
安全组(适用于VPC用户) 您的安全组。此字段必须包含至少一个安全组,最多 15 个安全组。有关详细信息,请参阅中约束和注意事项不支持的公有VPC子网 现场安全组。此字段默认为与该域关联的安全组VPC,但如果需要,您可以更改此字段。 现场安全组。计划程序无法检测到您的安全组,因此您需要输入为您的VPC安全组配置的所有安全组。 参数security_group_ids。默认值为 None。允许智能默认设置。
名称 笔记本作业步骤的名称。 不适用 不适用 参数name。如果未指定,则源自笔记本文件名。
显示名称 您的任务名称应出现在您的管道执行列表中。 不适用 不适用 参数display_name。默认值为 None
描述 您的工作描述。 不适用 不适用 参数description