在 Studio 中使用 Amazon EMR Serverless 应用程序或 Amazon EMR 集群进行大规模数据准备 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Studio 中使用 Amazon EMR Serverless 应用程序或 Amazon EMR 集群进行大规模数据准备

Amazon SageMaker Studio 及其旧版本 Studio Classic 为数据科学家和机器学习 (ML) 工程师提供了大规模执行数据分析和数据准备的工具。分析、转换和准备大量数据是任何数据科学和 ML 工作流的基础步骤。Studio 和 Studio Classic 都内置了与 Amazon EMR 的集成,允许用户在笔记本电脑中管理大规模的交互式数据准备和机器学习工作流程。 JupyterLab

Amazon EMR 是一个托管的大数据平台,其资源可帮助您使用 Ap ache Spark、ApacheHiv e、Presto 和 Flink AWS 等开源分析框架运行 PB 级分布式数据处理作业。 HBase通过将 Studio 和 Studio Classic 与 Amazon EMR 集成,您无需离开 JupyterLab 或 Studio Classic 笔记本电脑即可创建、浏览、发现和连接亚马逊 EMR 集群。此外,您还可以直接从笔记本一键访问 Spark UI,从而监控和调试 Spark 工作负载。

如果您有大规模、长期运行或复杂的数据处理需求,涉及海量数据,需要广泛的自定义和与其他服务集成,需要运行自定义应用程序,或计划运行 Apache Spark 以外的各种分布式数据处理框架,则应考虑将 Amazon EMR 集群用于数据准备工作负载。

使用SageMaker 分发映像1.10或更高版本,您也可以直接从 AI Studio 中的 JupyterLab SageMaker 笔记本电脑连接到交互式 EMR Serverles s 应用程序。Studio 与 EMR Serverless 的集成使您可以运行开源大数据分析框架,如 Apache SparkApache Hive,而无需配置、管理或扩展 Amazon EMR 集群。EMR Serverless 可根据您的 EMR Serverless 应用程序的需求自动配置和管理基础计算和内存资源。它可以动态地向上和向下扩展资源,根据应用程序消耗的 vCPU、内存和存储资源的数量收取费用。这种无服务器方法允许您在 JupyterLab 笔记本电脑上运行交互式数据准备工作负载,而不必担心集群管理,同时实现高实例利用率和成本效益。

如果您的工作负载是短期或间歇性的,不需要持久集群;您更喜欢自动资源预配置和终止的无服务器体验,从而避免了管理基础设施的开销;或者您的交互式数据准备任务主要围绕 Apache Spark 进行,那么您应该考虑使用 EMR Serverless 来处理交互式数据准备工作负载。