Amazon EMR Notebooks - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon EMR Notebooks

您可以将亚马逊 EMR Notebooks 与运行Apache Spark创建并打开Jupyter亚马逊 EMR 控制台中的笔记本和 JupyterLab 界面。EMR 笔记本是一款 “无服务器” 笔记本,可用于运行查询和代码。与传统笔记本不同,EMR 笔记本身的内容(方程式、查询、模型、代码和笔记本单元格中的叙述文本)在客户端中运行。命令是使用 EMR 集群上的内核执行的。笔记本内容也将独立于集群数据保存到 Amazon S3 中,以实现持久性和灵活重用。

您可以启动集群,附加 EMR 笔记本以进行分析,然后终止集群。您还可以关闭已附加到一个正在运行的集群的笔记本并切换到另一个笔记本。多个用户可以同时将笔记本附加到同一个集群,并在 Amazon S3 中相互共享笔记本文件。利用这些功能,您可以按需运行集群以节省成本,并减少为不同的集群和数据集重新配置笔记本所花费的时间。

您还可以使用 EMR API 以编程方式执行 EMR 笔记本,而无需与 EMR 控制台交互(“无头执行”)。您需要在 EMR 笔记本中包含一个具有参数标签的单元格。该单元格允许脚本将新的输入值传递给笔记本。参数化笔记本可以与不同的输入值集合重复使用。无需制作同一笔记本电脑的副本来编辑和执行新的输入值。EMR 为参数化笔记本的每次运行创建并保存在 S3 上的输出笔记本电脑。有关 EMR 笔记本 API 代码示例,请参阅用于以编程方式执行 EMR Notebooks 的示例命令

重要

EMR Notebooks 受使用亚马逊 EMR 5.18.0 及更高版本创建的集群的支持。我们强烈建议您将 EMR Notebooks 与使用最新版本的 Amazon EMR 创建的集群配合使用,特别是亚马逊 EMR 5.30.0、5.32.0 及更高版本,或 6.2.0 及更高版本。对于这些版本,进行了更改,以便 Jupyter 内核在附加的集群而不是 Jupyter 实例上运行。此更改可帮助提高性能并增强您自定义内核和库的能力。有关更多信息,请参阅 集群发布版本的功能差异

适用于 Amazon S3 存储和 Amazon EMR 集群的费用将收取适用费用。