学习 WorkSpace 基础知识 - Amazon EMR

学习 WorkSpace 基础知识

使用 EMR Studio 后,您可以创建和配置不同的 Workspaces 来组织和运行笔记本。本部分介绍了创建与使用 Workspaces。有关概念性概述,请参阅第 Amazon EMR Studio 工作原理 页上的 Workspaces

创建 EMR Studio Workspace

您可以创建 EMR Studio Workspaces 以使用 EMR Studio 界面运行笔记本代码。

在 EMR Studio 中创建 Workspace
  1. 登录 EMR Studio。

  2. 选择创建 Workspace

  3. 输入 Workspace name (Workspace 名称)Description (描述)。命名 Workspace 有助于您在 Workspaces 页面上识别它。

  4. 要与此 Workspace 中的其他 Studio 用户实时协作,可启用 Workspace 协作功能。启动 Workspace 后,您可以配置协作者。

  5. 如果要将集群连接到 Workspace,请展开高级配置部分。如果愿意,可在稍后连接集群。有关更多信息,请参阅将计算资源附加到 EMR Studio Workspace

    注意

    要预置新集群,您需要从管理员处获取访问权限。

    为 Workspace 选择其中一个集群选项并附加集群。有关在创建 Workspace 时预置集群的更多信息,请参阅 创建新的 EMR 集群并将其附加到 EMR Studio Workspace

  6. 选择页面右下角的创建 Workspace

创建 Workspace 后,EMR Studio 将打开 Workspaces 页面。您将在页面顶部看到一个绿色的成功横幅,并且可以在列表中找到新创建的 Workspace。

预设情况下,Workspace 是共享的,所有 Studio 用户都可以看到。但一次只能有一个用户打开一个 Workspace 并在其中工作。要与其他用户同时工作,您可以配置 Workspace 协作

启动 WorkSpace

要开始使用笔记本文件,请启动 Workspace 以访问笔记本编辑器。Studio 中的 Workspaces 页面列出了您有权访问的所有 Workspace,以及 Name(名称)、Status(状态)、Creation time(创建时间)和 Last modified(上次修改时间)等详细信息。

注意

如果在 Amazon EMR 旧控制台上有 EMR Notebooks,您可以在新控制台中以 EMR Studio Workspaces 的形式找到它们。要访问或创建 Workspaces,EMR Notebooks 用户需要额外的 IAM 角色权限。如果最近在旧控制台中创建了笔记本,则可能需要刷新 Workspace 列表才能在新控制台中看到它们。有关过渡的更多信息,请参阅 Amazon EMR Notebooks 在新控制台中作为 Amazon EMR Studio Workspaces 提供控制台中的新增功能

启动 Workspace 以编辑和运行笔记本
  1. 在 Studio 的 Workspaces 页面上,查找 Workspace。您可以按关键字或列值来筛选列表。

  2. 选择 Workspace 名称,以在新的浏览器选项卡中启动 Workspace。如果 Workspace 处于 Idle (空闲) 状态,系统可能需要几分钟才能打开它。另外,可以选择 Workspace 的行,然后选择启动 Workspace。可从以下选项中进行选择:

    • 快速启动 – 使用默认选项快速启动 Workspace。如果要在 JupyterLab 中将集群连接到 Workspace,请选择快速启动

    • 使用选项启动 – 使用自定义选项启动 Workspace。您可以选择在 Jupyter 或 JupyterLab 中启动,将 Workspace 连接到 EMR 集群,然后选择安全组。

    注意

    一次只能有一个用户打开 Workspace 并在其中工作。如果您选择一个已在使用的 Workspace,当您尝试打开它时,EMR Studio 会显示一条通知。Workspaces 页面上的 User (用户) 列显示当前正在使用 Workspace 的用户。

了解 Workspace 用户界面

EMR Studio Workspace 用户界面基于 JupyterLab 界面,左侧边栏上有以图标表示的选项卡。当您在图标上暂停时,您会看到一个工具提示,其中显示了选项卡的名称。从左侧边栏中选择选项卡以访问以下面板。

  • File Browser (文件浏览器) – 显示 Workspace 中的文件和目录,以及链接的 Git 存储库的文件和目录。

  • Running Kernels and Terminals (正在运行的内核和终端) – 列出在 Workspace 中运行的所有内核和终端。有关更多信息,请参阅 JupyterLab 官方文档中的管理内核和终端

  • Git – 提供图形用户界面,用于在附加到 Workspace 的 Git 存储库中执行命令。该面板是一个名为 jupyterlab-git 的 JupyterLab 扩展。有关更多信息,请参阅 jupyterlab-git

  • EMR 集群 – 允许将集群附加到 Workspace 或从 Workspace 分离集群,以便运行笔记本代码。EMR 集群配置面板还提供高级配置选项,以帮助您创建集群并将其附加到 Workspace。有关更多信息,请参阅创建新的 EMR 集群并将其附加到 EMR Studio Workspace

  • Amazon EMR Git 存储库 – 帮助您将 Workspace 与最多三个 Git 存储库链接起来。有关详细信息和说明,请参阅将基于 Git 的存储库链接到 EMR Studio Workspace

  • Notebook Examples (笔记本示例) – 提供可以保存到 Workspace 的笔记本示例列表。您还可以通过在 Workspace 的 Launcher (启动器) 页面上选择 Notebook Examples (笔记本示例) 来访问示例。

  • Commands (命令) – 提供一种键盘驱动的方式来搜索和运行 JupyterLab 命令。有关更多信息,请参阅 JupyterLab 文档中的 Command palette (命令调色板) 页面。

  • Notebook Tools (笔记本工具) – 允许您选择和设置单元格滑动类型和元数据等选项。Notebook Tools (笔记本工具) 选项在您打开笔记本文件后显示在左侧边栏中。

  • Open Tabs(打开的选项卡)– 列出主工作区中打开的文档和活动,以便您可以跳转到打开的选项卡。有关更多信息,请参阅 JupyterLab 文档中的选项卡和单个文档模式页面。

  • Collaboration(协作)– 允许您启用或禁用 Workspace 协作以及管理协作者。要查看 Collaboration(协作)面板,您必须具有必要的权限。有关更多信息,请参阅设置 Workspace 协作的所有权

探索笔记本示例

每个 EMR Studio Workspace 都包含一组笔记本示例,可用于探索 EMR Studio 功能。要编辑或运行笔记本示例,您可以将其保存到 Workspace。

将笔记本示例保存到 Workspace
  1. 从左侧边栏中,选择 Notebook Examples (笔记本示例) 选项卡以打开 Notebook Examples (笔记本示例) 面板。您还可以通过在 Workspace 的 Launcher (启动器) 页面上选择 Notebook Examples (笔记本示例) 来访问示例。

  2. 选择一个笔记本示例以在主工作区中进行预览。示例是只读的。

  3. 要将笔记本示例保存到 Workspace,请选择 Save to Workspace (保存到 Workspace)。EMR Studio 将示例保存在您的主目录中。将笔记本示例保存到 Workspace 后,您可以重命名、编辑和运行它。

有关笔记本示例的更多信息,请参阅 EMR Studio 笔记本示例 GitHub 存储库

保存 Workspace 内容

当您在 Workspace 的笔记本编辑器中工作时,EMR Studio 会为您将笔记本单元格和输出的内容保存在与 Studio 关联的 Amazon S3 位置。此备份过程可在会话之间保留工作。

您还可以通过在打开的笔记本选项卡中按 CTRL+S 或使用 File (文件) 下的其中一个保存选项保存笔记本。

备份 Workspace 中笔记本文件的另一种方法是将 Workspace 与基于 Git 的存储库相关联,并将更改与远程存储库同步。这样做还可以让您与使用不同 Workspace 或 Studio 的团队成员保存和共享笔记本。有关说明,请参阅 将基于 Git 的存储库链接到 EMR Studio Workspace

删除 Workspace 和笔记本文件

当您从 EMR Studio Workspace 中删除笔记本文件时,您会从 File browser (文件浏览器) 中删除该文件,并且 EMR Studio 会删除其在 Amazon S3 中的备份副本。当您从 Workspace 删除文件时,无需采取任何进一步措施来避免存储费用。

删除整个 Workspace 时,其笔记本文件和文件夹将保留在 Amazon S3 存储位置中。文件会继续产生存储费用。为避免产生存储费用,请从 Amazon S3 中删除与已删除 Workspace 关联的所有备份文件和文件夹。

从 EMR Studio Workspace 中删除笔记本文件
  1. 从 Workspace 的左侧边栏中选择 File browser (文件浏览器) 面板。

  2. 选择要删除的文件或文件夹。右键单击选定内容,然后选择 Delete (删除)。文件将从列表中消失。EMR Studio 会为您从 Amazon S3 中删除文件或文件夹。

From the Workspace UI
从 EMR Studio 中删除 Workspace 及其关联的备份文件
  1. 使用您的 Studio 访问 URL 登录 EMR Studio,然后从左侧导航中选择 Workspaces

  2. 在列表中找到您的 Workspace,然后选中其名称旁边的复选框。您可以选择同时删除多个 Workspaces。

  3. 选择 Workspaces 列表右上角的 Delete (删除) 并确认您要删除选定的 Workspaces。选择 Delete (删除) 以确认。

  4. 按照《Amazon Simple Storage Service 控制台用户指南》中的删除对象说明,从 Amazon S3 中删除与已删除 Workspace 关联的笔记本文件。如果您没有创建 Studio,请咨询您的 Studio 管理员以确定已删除 Workspace 的 Amazon S3 备份位置。

From the Workspaces list
从 Workspace 列表中删除 Workspace 及其关联的备份文件
  1. 在控制台中导航到 Workspace 列表。

  2. 选择要从列表中删除的 Workspace,然后选择操作

  3. 选择 Delete (删除)

  4. 按照《Amazon Simple Storage Service 控制台用户指南》中的删除对象说明,从 Amazon S3 中删除与已删除 Workspace 关联的笔记本文件。如果您没有创建 Studio,请咨询您的 Studio 管理员以确定已删除 Workspace 的 Amazon S3 备份位置。

了解 Workspace 状态

创建 EMR Studio Workspace 后,它在 Workspaces 列表中显示为一行,其中包含其名称、状态、创建时间和上次修改时间戳。下表描述了 Workspace 的状态。

状态 描述
Starting (正在启动) Workspace 正在准备中,但尚未准备好使用。当 Workspace 状态为“Starting (正在启动)”时,您无法打开它。
Ready (就绪) 您可以打开 Workspace 以使用笔记本编辑器,但必须先将 Workspace 附加到 EMR 集群,然后才能运行笔记本代码。
Attaching (正在附加) 正将 Workspace 附加到集群。
Attached (已附加) Workspace 已附加到 EMR 集群,可供您编写和运行笔记本代码。如果 Workspace 的状态不是 Attached (已附加),则必须先将其附加到集群,然后才能运行笔记本代码。
Idle (空闲) Workspace 已停止。要重新激活空闲 Workspace,请从 Workspaces 列表中选择它。当您选择 Workspace 时,状态从 Idle (空闲) 变为 Starting (正在启动) 再变为 Ready (就绪)
Stopping (正在停止) Workspace 正在关闭,并将设置为空闲。停止 Workspace 时,会终止所有相应的笔记本内核。EMR Studio 会停止长时间处于非活动状态的笔记本。
Deleting (正在删除) 删除 Workspace 时,EMR Studio 会将其标记为删除并启动删除过程。删除过程完成后, Workspace 将从列表中消失。删除 Workspace 时,其笔记本文件将保留在 Amazon S3 存储位置中。

解决 Workspace 连接问题

要解决 Workspace 连接问题,您可以停止并重启 Workspace。当您重启 Workspace 时,EMR Studio 会在与您的 Studio 关联的其他可用区或其他子网中启动该 Workspace。

停止并重启 EMR Studio Workspace
  1. 在浏览器中关闭该 Workspace。

  2. 在控制台中导航到 Workspace 列表。

  3. 从该列表中选择您的 Workspace,然后选择 Actions(操作)。

  4. 选择 Stop(停止),然后等待 Workspace 状态从 Stopping(正在停止)变为 Idle(空闲)。

  5. 再次选择 Actions(操作),然后选择 Start(启动)以重启该 Workspace。

  6. 等待 Workspace 状态从 Starting(正在启动)变为 Ready(就绪),然后选择 Workspace 名称,以便在新的浏览器选项卡中重新打开它。