使用 Studio Classic 笔记本电脑中的 Amazon EMR 集群 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Studio Classic 笔记本电脑中的 Amazon EMR 集群

在本节中,您将学习如何从 SageMaker Studio Classic 笔记本电脑中发现、连接或终止 Amazon EMR 集群。

从 SageMaker Studio Classic 连接到 Amazon EMR 集群时,您可以使用 Kerberos轻型目录访问协议 (LDAP) 或使用运行时 IAM 角色身份验证来对集群进行身份验证。您的身份验证方法取决于您的集群配置。您可以参考示例在启用了 Kerberos 的 Amazon EMR 集群上使用网络负载均衡器访问 Apache Livy,设置使用 Kerberos 的 Amazon EMR 集群。或者,你可以在 a w GitHub s-samples/sagemaker-studio-emr 存储库中查看使用 Kerberos 或 LDAP 的 CloudFormation 示例模板。

手动输入连接到 Amazon EMR 集群的命令中,根据身份验证方法查找可用于连接到 Amazon EMR 集群的命令列表,以连接到您的 Amazon EMR 集群。

支持从 Studio Classic 连接到 Amazon EMR 集群 SageMaker 的镜像和内核

SageMaker Studio Classic 在以下映像和内核中为连接亚马逊 EMR 集群提供了内置支持:

  • DataScience — Python 3 内核

  • DataScience 2.0 — Python 3 内核

  • DataScience 3.0 — Python 3 内核

  • SparkAnalytics 1.0 — SparkMagic 还有内 PySpark 核

  • SparkAnalytics 2.0 — SparkMagic 还有内 PySpark 核

  • SparkMagic — SparkMagic 和内 PySpark 核

  • PyTorch 1.8 — Python 3 内核

  • TensorFlow 2.6 — Python 3 内核

  • TensorFlow 2.11 — Python 3 内核

这些映像和内核附带 sagemaker-studio-analytics-extensions,这是一款笔记本扩展,允许使用 Apache Livy 通过库连接到远程 Spark(Amazon EMR)集群。SparkMagic

要使用其他内置映像或您自己的映像连接到 Amazon EMR 集群,请按照自带映像中的说明进行操作。

自带映像

要在 SageMaker Studio Classic 中使用自己的镜像并允许您的笔记本电脑连接到 Amazon EMR 集群,请在内核中安装以下 sagemaker-studio-analytics-extension-extension- Extension 它支持通过库将 SageMaker Studio Classic 笔记本电脑连接到 Spark(亚马逊 EMR)集群。SparkMagic

pip install sparkmagic pip install sagemaker-studio-sparkmagic-lib pip install sagemaker-studio-analytics-extension

此外,要在连接 Amazon EMR 时使用 Kerberos 身份验证,您必须安装 kinit 客户端。根据您的操作系统,安装 kinit 客户端的命令可能会有所不同。要自带 Ubuntu(基于 Debian)映像,请使用 apt-get install -y -qq krb5-user 命令。

有关在 SageMaker Studio Classic 中自带图像的更多信息,请参阅自带 SageMaker 图片