在 Studio 中使用 SQL 准备数据 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Studio 中使用 SQL 准备数据

Amazon SageMaker Studio 提供了一个内置的 SQL 扩展。此扩展允许数据科学家直接在 JupyterLab 笔记本中执行采样、探索性分析和特征工程等任务。它利用 AWS Glue 连接来维护集中的数据源目录。该目录存储有关各种数据源的元数据。通过此 SQL 环境,数据科学家可以在 Python 中浏览数据目录、浏览数据、编写复杂的 SQL 查询以及进一步处理结果。

本节介绍如何在 Studio 中配置 SQL 扩展。它描述了此 SQL 集成所启用的功能,并提供了在 JupyterLab 笔记本中运行 SQL 查询的说明。

要启用 SQL 数据分析,管理员首先需要配置 AWS Glue 连接以选择数据源。这些连接使数据科学家能够从内部无缝访问授权的数据集 JupyterLab。设置访问权限后, JupyterLab 用户可以:

  • 查看和浏览预先配置的数据源。

  • 搜索、筛选和检查数据库信息元素,例如表、架构和列。

  • 自动生成数据源的连接参数。

  • 使用扩展的 SQL 编辑器的语法突出显示、自动完成和 SQL 格式化功能创建复杂的 SQL 查询。

  • 从 JupyterLab 笔记本单元格中运行 SQL 语句。

  • 检索 SQL 查询的结果,pandas DataFrames 以便进一步处理、可视化和其他机器学习任务。

在 Studio 中,您可以通过在 JupyterLab 应用程序的左侧导航窗格中选择 SQL extension icon. 图标来访问该扩展程序。将鼠标悬停在该图标上会显示其数据发现工具提示。

重要
  • 如果您是管理员,希望为 SQL 扩展配置数据源的连接,请按照以下步骤操作:

  • 如果您是一名数据科学家,希望使用 SQL 扩展模块浏览和查询您的数据源,请确保您的管理员已配置数据源的连接,然后按照以下步骤操作:

    • 使用 SageMaker 发行映像版本 1.6 或更高版本创建私有空间,以便在 Studio 中启动您的 JupyterLab 应用程序。

    • 如果您是 SageMaker 分发映像版本 1.6 的用户,请在 JupyterLab 笔记本单元中运行,将 SQL 扩展程序加载到笔记本%load_ext amazon_sagemaker_sql_magic中。

      对于 SageMaker 分发映像版本 1.7 及更高版本的用户,无需执行任何操作,SQL 扩展会自动加载。

    • 熟悉中 SQL 扩展的功能。SQL 扩展的功能和用法