Amazon SageMaker Studio 经典版 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker Studio 经典版

重要

截至 2023 年 11 月 30 日,之前的亚马逊 SageMaker Studio 体验现在被命名为 Amazon St SageMaker udio Classic。以下部分专门介绍如何使用 Studio Classic 应用程序。有关使用更新后的 Studio 体验的信息,请参阅亚马逊 SageMaker Studio

重要

允许 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 创建亚马逊 SageMaker资源的自定义IAM策略还必须授予向这些资源添加标签的权限。需要向资源添加标签的权限,因为 Studio 和 Studio Classic 会自动标记他们创建的任何资源。如果IAM策略允许 Studio 和 Studio Classic 创建资源但不允许标记,则在尝试创建资源时可能会出现 AccessDenied “” 错误。有关更多信息,请参阅 提供标记 SageMaker资源的权限

AWS Amazon 托管政策 SageMaker授予创建 SageMaker 资源的权限已经包括在创建这些资源时添加标签的权限。

本主题介绍如何在安装和使用过程中解决常见的 Amazon SageMaker Studio Classic 问题。以下是使用 Amazon SageMaker Studio Classic 时可能出现的常见错误。每个错误都有相应的解决方案。

Studio 经典版应用程序问题

启动和使用 Studio Classic 应用程序时会出现以下问题。

  • 屏幕未加载:清除工作区并等待也无济于事

    启动 Studio Classic 应用程序时,弹出窗口会显示以下消息。无论选择哪个选项,Studio Classic 都不会加载。

    Loading... The loading screen is taking a long time. Would you like to clear the workspace or keep waiting?

    如果在 Studio Classic 工作区中打开了多个选项卡,或者亚马逊上有多个文件,Studio Classic 应用程序的启动可能会延迟EFS。此弹出窗口应在 Studio Classic 工作区准备就绪后的几秒钟内消失。

    如果您在选择任一选项后继续看到带有微调器的加载屏幕,则说明Studio Classic使用的Amazon Virtual Private Cloud可能存在连接问题。 

    要解决 Studio Classic 使用的亚马逊虚拟私有云(亚马逊VPC)的连接问题,请验证以下联网配置:

    • 如果您的域名设置为VpcOnly模式:验证是否有用于 AWS STS出站流量(包括互联网流量)的 Amazon VPC 终端节点或NAT网关。为此,请按照 将 a 中的 Connect Studio 笔记本电脑VPC连接到外部资源 中的步骤操作。

    • 如果您的亚马逊VPC是使用自定义DNS而不是亚马逊DNS提供的设置的:请验证路由是否使用动态主机配置协议 (DHCP) 为添加到 Studio Classic VPC 使用的亚马逊VPC终端节点配置到亚马逊的每个终端节点。有关设置默认和自定义DHCP选项集的更多信息,请参阅 Amazon 中的DHCP选项集VPC

  • 启动 Studio 经典版时出现内部故障

    启动 Studio Classic 时,无法查看 Studio Classic 用户界面 您还会看到类似于以下内容的错误,错误详细信息是内部失败

    Amazon SageMaker Studio The JupyterServer app default encountered a problem and was stopped.

    这种错误可能由多种因素造成。如果完成这些步骤仍不能解决您的问题,请使用创建问题 https://aws.amazon.com/premiumsupport/。 

    • 缺少亚马逊EFS挂载目标:Studio Classic 使用亚马逊EFS进行存储。Amazon EFS 卷需要为在其中创建 Amazon SageMaker 域的每个子网设置一个挂载目标。如果此 Amazon EFS 挂载目标被意外删除,Studio Classic 应用程序将无法加载,因为它无法挂载用户的文件目录。要解决这个问题,请完成以下步骤。

      验证或创建挂载目标。
      1. 使用DescribeDomainAPI调用查找与该域名关联的 Amazon EFS 卷。 

      2. 登录 AWS Management Console 并打开 Amazon EFS 控制台,网址为 https://console.aws.amazon.com/efs/

      3. 从亚马逊EFS卷列表中,选择与该域名关联的亚马逊EFS卷。

      4. 在 Amazon EFS 详情页面上,选择 “网络” 选项卡。确认在其中设置域的所有子网都有挂载目标。

      5. 如果缺少挂载目标,请添加缺失的 Amazon EFS 挂载目标。有关说明,请参阅创建并管理挂载目标和安全组

      6. 创建缺少的挂载目标后,启动 Studio Classic 应用程序。

    • 用户.local文件夹中的文件冲突:如果您在 Studio Classic 上使用 JupyterLab版本 1,则.local文件夹中的库冲突可能会导致启动 Studio Classic 应用程序时出现问题。要解决此问题,请将用户配置文件的默认 JupyterLab 版本更新为 JupyterLab 3.0。有关查看和更新 JupyterLab 版本的更多信息,请参阅JupyterLab 版本控制

  • ConfigurationError: 启动 Studio 经典版 LifecycleConfig时

    启动 Studio Classic 时无法查看 Studio 经典版用户界面。这是由于附加到域的默认生命周期配置脚本存在问题造成的。

    解决生命周期配置问题
    1. 查看生命周期配置的 Amazon CloudWatch 日志,以跟踪导致失败的命令。要查看日志,请按照 从 L CloudWatch ogs 中验证生命周期配置流程 中的步骤操作。

    2. 从用户配置文件或域中分离默认脚本。有关更多信息,请参阅 更新和分离生命周期配置

    3. 启动 Studio 经典版应用程序。

    4. 调试生命周期配置脚本。您可以从系统终端运行生命周期配置脚本以排查问题。从终端成功运行脚本后,可以将脚本附加到用户配置文件或域。

  • SageMaker Studio Classic 核心功能不可用。

    如果你在打开 Studio Classic 时收到此错误消息,则可能是由于 Python 包版本冲突所致。如果您在笔记本或终端中使用以下命令安装版本与 SageMaker 包依赖关系存在版本冲突的 Python 包,则会发生这种情况。

    !pip install
    pip install --user

    要解决这个问题,请完成以下步骤:

    1. 卸载最近安装的 Python 软件包。如果您不确定要卸载哪个软件包,请创建问题 https://aws.amazon.com/premiumsupport/。 

    2. 重启经典工作室:

      1. 从 “文件” 菜单关闭 Studio Classic。

      2. 等待一分钟。

      3. 通过刷新页面或从中打开来重新打开 Studio Classic AWS Management Console。

    如果您卸载了导致冲突的软件包,则该问题应得到解决。要在不再次导致此问题的情况下安装软件包,请使用不带 --user 标志的 %pip install

    如果问题仍然存在,请创建新的用户配置文件并使用该用户配置文件设置环境。

    如果这些解决方案无法解决问题,请使用创建问题 https://aws.amazon.com/premiumsupport/。 

  • 无法从中打开 Studio Classic AWS Management Console。

    如果您无法打开 Studio Classic,也无法使用所有默认设置创建新的正在运行的实例,请使用创建问题 https://aws.amazon.com/premiumsupport/。 

KernelGateway 应用程序问题

以下问题特定于在 Studio Classic 中启动的 KernelGateway 应用程序。

  • 无法访问内核会话

    当用户启动新的笔记本时,他们无法连接到笔记本会话。如果 KernelGateway 应用程序的状态为In Service,则可以验证以下内容以解决问题。

    • 检查安全组配置

      如果将域设置为VPCOnly模式,则与该域关联的安全组必须允许范围内的端口之间的流量,8192-65535以便在 JupyterServer 和 KernelGateway 应用程序之间建立连接。

      验证安全组规则
      1. 使用DescribeDomainAPI调用获取与该域关联的安全组。

      2. 登录 AWS Management Console 并打开 Amazon VPC 控制台,网址为https://console.aws.amazon.com/vpc/

      3. 在左侧导航栏的安全下选择安全组

      4. 按与IDs域关联的安全组进行筛选。

      5. 对于每个安全组:

        1. 选择 安全组。

        2. 在安全组详细信息页面上,查看入站规则。验证范围 8192-65535 内的端口之间是否允许流量。

      有关安全组规则的更多信息,请参阅使用安全组控制资源流量。有关在VPCOnly模式下使用 Studio Classic 的要求的更多信息,请参阅将 a 中的 Connect Studio 笔记本电脑VPC连接到外部资源

    • 验证防火墙和 WebSocket连接

      如果 KernelGateway 应用程序InService处于状态且用户无法连接到 Studio Classic 笔记本会话,请验证防火墙和WebSocket 设置。

      1. 启动 Studio 经典版应用程序。有关更多信息,请参阅 推出亚马逊 SageMaker Studio 经典版

      2. 打开 Web 浏览器的开发工具。

      3. 选择网络选项卡。

      4. 搜索符合以下格式的条目。

        wss://<domain-id>.studio.<region>.sagemaker.aws/jupyter/default/api/kernels/<unique-code>/channels?session_id=<unique-code>

        如果条目的状态或响应码不是101,则您的网络设置会阻止 Studio Classic 应用程序与应用程序之间的连接。 KernelGateway

        要解决此问题,请联系管理您的网络设置的团队,允许列出 Studio Classic URL 并启用 WebSocket 连接。 

  • 由于超过资源限额而无法启动应用程序

    当用户尝试启动新笔记本时,笔记本创建失败,并出现以下任一错误。这是由于超出资源限额造成的。

    • Unable to start more Apps of AppType [KernelGateway] and ResourceSpec(instanceType=[]) for UserProfile []. Please delete an App with a matching AppType and ResourceSpec, then try again

      Studio Classic 支持在同一个实例上运行最多四个 KernelGateway 应用程序。要解决这个问题,您可以执行以下任一操作:

      • 删除在实例上运行的现有 KernelGateway 应用程序,然后重启新笔记本。

      • 在不同的实例类型上启动新笔记本

      有关更多信息,请参阅 更改实例类型

    • An error occurred (ResourceLimitExceeded) when calling the CreateApp operation

      在这种情况下,该账户没有足够的限制,无法在指定的实例类型上创建 Studio Classic 应用程序。要解决此问题,请导航至 Service Quotas 控制台,网址为https://console.aws.amazon.com/servicequotas/。在该控制台中,请求增加 Studio KernelGateway Apps running on instance-type instance 限额。有关更多信息,请参阅AWS 服务限额