本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
数据科学家和数据工程师可以直接从 Studio 用户界面发现并连接到 EMR Serverless 应用程序。在开始之前,请确保已按照 从 Studio 创建 EMR Serverless 应用程序 中的说明创建了 EMR Serverless 应用程序。
您可以直接从 Studio 用户界面将 EMR Serverless 应用程序连接到新的 JupyterLab 笔记本电脑,也可以选择在正在运行的应用程序的笔记本中启动连接。 JupyterLab
重要
使用 Studio 时,对于从私有空间启动的应用程序,您只能发现并连接到 EMR Serverless JupyterLab 应用程序。确保 EMR 无服务器应用程序与您的 Studio 环境位于同一 AWS 区域。您的 JupyterLab 空间必须使用 SageMaker 分发图片版本1.10
或更高版本。
要从 Studio 用户界面将 EMR 无服务器应用程序连接到新 JupyterLab 笔记本电脑,请执行以下操作:
-
在 Studio UI 中,导航至左侧面板,然后选择左侧导航菜单中的数据节点。然后,滚动并选择 Amazon EMR 应用程序和集群选项。这会打开一个页面上,在无服务器应用程序选项卡下显示您可以在 Studio 环境中访问的 Amazon EMR 应用程序。
注意
如果您或您的管理员配置了允许跨账户访问 EMR Serverless 应用程序的权限,您就可以查看已授权访问 Studio 的所有账户的应用程序综合列表。
-
选择要连接到新笔记本的 EMR Serverless 应用程序,然后选择附加到笔记本。这将打开一个显示 JupyterLab 空间列表的模态窗口。
-
-
选择要从中启动 JupyterLab应用程序的专用空间,然后选择 “打开笔记本”。这将从您选择的空间启动 JupyterLab 应用程序并打开一个新的笔记本。
-
或者,您也可以选择模式窗口顶部的创建新空间按钮,创建一个新的专用空间。输入空间名称,然后选择创建空间并打开笔记本。这将创建一个具有默认实例类型和最新 SageMaker 发行映像的私有空间,启动 JupyterLab 应用程序并打开新的笔记本。
-
-
选择 EMR Serverless 应用程序在运行作业时可以承担的 IAM 运行时执行角色的名称。选择后,连接命令会弹出笔记本的第一个单元格,并启动与 EMR Serverless 应用程序的连接。
重要
要成功将 JupyterLab 笔记本连接到 EMR Serverless 应用程序,必须先将运行时角色列表与您的域或用户配置文件相关联,如中所述。设置权限以允许从 Studio 发布和启动 Amazon EMR 应用程序 SageMaker 未完成此步骤将无法建立连接。
连接成功后,会有一条消息确认连接,启动 EMR Serverless 应用程序,并启动 Spark 会话。
注意
连接到 EMR Serverless 应用程序时,其状态会从
Stopped
或Created
过渡到Started
。
或者,您可以从 JupyterLab 笔记本连接到集群。
-
选择笔记本右上方的集群按钮。这会打开一个模式窗口,列出您可以访问的 EMR Serverless 应用程序。您可以在无服务器应用程序选项卡中看到这些应用程序。
-
选择要连接的应用程序,然后选择连接。
-
EMR Serverless 支持运行时 IAM 角色,这些角色在设置 设置权限以允许从 Studio 发布和启动 Amazon EMR 应用程序 SageMaker 中概述的所需权限时已预先加载。未完成此步骤将无法建立连接。
您可以从 Amazon EMR 执行角色下拉菜单中选择您的角色。连接到 EMR Serverless 时,Studio 会在笔记本的活动单元格中添加一个代码块,以建立连接。
-
活动单元填充并运行。该单元包含连接神奇命令,用于将笔记本连接到应用程序。
连接成功后会显示一条消息,确认连接以及 Spark 应用程序的启动。您可以开始向 EMR Serverless 应用程序提交数据处理作业。