使用准备数据 AWS Glue 交互式会话 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用准备数据 AWS Glue 交互式会话

AWS Glue 交互式会话是一项无服务器服务,您可以利用它来收集、转换、清理和准备数据以存储在数据湖和数据管道中。 AWS Glue 交互式会话提供了按需提供的无服务器 Apache Spark 运行时环境,您可以在几秒钟内在专用的数据处理单元 (DPU) 上对其进行初始化,而无需预置和管理复杂的计算集群基础架构。初始化后,您可以浏览 AWS Glue 数据目录、运行大型查询、访问受控制的数据 AWS Lake Formation,直接在 Studio 或 Studio Classic 笔记本电脑中使用 Spark 进行交互式分析和准备数据。然后,您可以使用 Studi SageMaker o 或 Studio Classic 中专门构建的机器学习工具,使用准备好的数据来训练、调整和部署模型。你应该考虑 AWS Glue 当你想要一个对可配置性和灵活性进行适度控制的无服务器 Spark 服务时,可以为你的数据准备工作负载提供交互式会话。

你可以启动 AWS Glue 通过在 Studio 或 Studio Classic 中启动 JupyterLab 笔记本来进行互动 启动笔记本时,请选择内置Glue PySpark and RayGlue Spark内核。这将自动启动交互式的无服务器 Spark 会话。您无需预置或管理任何计算集群或基础设施。初始化后,你可以探索 AWS Glue Data Catalog,在 Studio 或 Studio Classic 笔记本电脑中使用 Spark 执行复杂的查询,并以交互方式分析和准备数据。然后,您可以使用中专门构建的机器学习工具,使用准备好的数据来构建、训练、调整和部署模型。 SageMaker

在开始之前 AWS Glue 在 Studio 或 Studio Classic 中进行交互式会话,您需要设置相应的角色和策略。此外,您可能需要提供对其他资源的访问权限,例如 Amazon S3 存储桶。有关所需IAM策略的更多信息,请参阅的权限 AWS Glue 工作室或经典工作室中的互动课程

Studio 和 Studio Classic 为您提供了默认配置 AWS Glue 交互式会话,但是,你可以使用 AWS Glue完整的 Jupyter 魔法命令目录,用于进一步自定义您的环境。有关可以在你的 Jupyter 中使用的默认魔法和其他 Jupyter 魔法的信息 AWS Glue 交互式会话,请参阅配置你的 AWS Glue 工作室或经典工作室中的互动环节

  • 适用于启动 Studio 经典版的用户 AWS Glue 交互式会话,他们可以从以下图像和内核中进行选择:

    • 图片:SparkAnalytics 1.0, SparkAnalytics 2.0

    • 内核:Glue Python [PySpark and Ray]Glue Spark

  • 对于 Studio 用户,请使用默认的SageMaker 发行版映像并选择一个Glue Python [PySpark and Ray]或一个Glue Spark内核。