本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon 准备数据 EMR
重要
Amazon SageMaker Studio 和 Amazon SageMaker Studio Classic 是你可以用来与之交互的两个机器学习环境 SageMaker。
如果你的域名是在 2023 年 11 月 30 日之后创建的,那么 Studio 将是你的默认体验。
如果您的域名是在 2023 年 11 月 30 日之前创建的,那么亚马逊 SageMaker Studio 经典版是您的默认体验。如果您的默认体验是亚马逊 SageMaker Studio 经典版,则要使用 Studio,请参阅从亚马逊 SageMaker Studio 经典版迁移。
当您从 Amazon SageMaker Studio Classic 迁移到 Amazon SageMaker Studio 时,功能可用性不会受到任何损失。Studio Classic 还作为应用程序存在于 Amazon SageMaker Studio 中,可帮助您运行传统的机器学习工作流程。
Amazon SageMaker Studio 和 Studio Classic 内置了与亚马逊的集成EMR。在 JupyterLab Studio Classic 笔记本电脑中,数据科学家和数据工程师可以发现并连接到现有的 Amazon EMR 集群,然后使用 A pache Spark、Apache
管理员可以创建定义 Amazon EMR 集群的AWS CloudFormation 模板。然后,他们可以在中提供这些集群模板AWS Service Catalog以供 Studio 和 Studio Classic 用户启动。然后,数据科学家可以选择预定义的模板,直接从他们的 Studio 环境中自行配置 Amazon EMR 集群。管理员可以进一步参数化模板,让用户在预定义值范围内选择集群的各个方面。例如,用户可能想要指定核心节点的数量或从下拉菜单中选择节点的实例类型。
管理员可以使用 AWS CloudFormation,控制 Amazon EMR 集群的组织、安全和联网设置。然后,数据科学家和数据工程师可以为其工作负载自定义这些模板,直接从 Studio 和 Studio Classic 创建按需的 Amazon EMR 集群,而无需设置复杂的配置。用户可以在使用后终止 Amazon EMR 集群。
-
如果您是管理员:
确保您已启用 Studio 或 Studio Classic 与 Amazon EMR 集群之间的通信。有关说明,请参阅为您的 Amazon EMR 集群配置网络访问权限部分。启用此通信后,您可以:
-
如果您是数据科学家或数据工程师,则可以: