Studio で SQL を使用してデータを準備する

Amazon SageMaker Studio には、SQL 拡張機能が組み込まれています。この拡張機能により、データサイエンティストはサンプリング、探索分析、特徴量エンジニアリングなどのタスクを JupyterLab ノートブック内で直接実行できます。 AWS Glue 接続を活用して、一元化されたデータソースカタログを維持します。カタログには、さまざまなデータソースに関するメタデータが保存されます。この SQL 環境を通じて、データサイエンティストはデータカタログを参照し、データを調べ、複雑な SQL クエリを作成し、Python で結果をさらに処理できます。

このセクションでは、Studio で SQL 拡張機能を設定する方法について説明します。この SQL 統合で有効になっている機能について説明し、 JupyterLab ノートブックで SQL クエリを実行する手順を示します。

SQL データ分析を有効にするには、管理者はまずデータソースを選択するように接続を設定 AWS Glue する必要があります。これらの接続により、データサイエンティストは内から認可されたデータセットにシームレスにアクセスできます JupyterLab。アクセスをセットアップすると、 JupyterLab ユーザーは次のことができます。

事前設定されたデータソースを表示および参照します。
テーブル、スキーマ、列などのデータベース情報要素を検索、フィルタリング、検査します。
接続パラメータをデータソースに自動生成します。
拡張機能の SQL エディタの構文強調表示、自動補完、および SQL フォーマット機能を使用して、複雑な SQL クエリを作成します。
JupyterLab ノートブックセルから SQL ステートメントを実行します。
SQL クエリの結果をとして取得して、pandas DataFrames 処理、視覚化、その他の機械学習タスクをさらに進めます。

Studio の JupyterLab アプリケーションの左側のナビゲーションペインにあるアイコンを選択すると、拡張機能にアクセスできます。アイコンにカーソルを合わせると、データ検出ツールのヒントが表示されます。

重要

SageMaker Studio の JupyterLab イメージには、ディスSageMakerトリビューション 1.6 以降、デフォルトで SQL 拡張機能が含まれています。拡張機能は Python と SparkMagic カーネルでのみ動作します。
接続とデータを探索するための拡張機能のユーザーインターフェイスは、Studio JupyterLab 内のでのみ使用できます。Amazon Redshift 、Amazon Athena 、および Snowflake と互換性があります。

SQL 拡張機能のデータソースへの接続を設定しようとしている管理者の場合は、次の手順に従います。
- Studio ドメインとで接続するデータソース間のネットワーク通信を有効にします管理者のネットワークを設定する。
- この通信を有効にしたら、データソース AWS Glue への接続を作成し、 SageMaker ドメインまたはユーザープロファイルの実行ロールにで必要なアクセス許可を付与します管理者のデータソースへの SQL 拡張機能接続を設定する。
SQL 拡張機能を使用してデータソースを参照およびクエリしようとしているデータサイエンティストの場合は、管理者がデータソースへの接続を設定していることを確認し、次のステップに従います。
- SageMaker ディストリビューションイメージバージョン 1.6 以降を使用して Studio で JupyterLab アプリケーションを起動するプライベートスペースを作成します。
- SageMaker ディストリビューションイメージバージョン 1.6 のユーザーの場合は、 JupyterLab ノートブックセルでを実行して、ノートブック%load_ext amazon_sagemaker_sql_magicに SQL 拡張機能をロードします。
  
  SageMaker ディストリビューションイメージバージョン 1.7 以降のユーザーの場合、アクションは必要ありません。SQL 拡張機能は自動的にロードされます。
- の SQL 拡張機能の機能を理解しますSQL 拡張機能の機能と使用方法。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

データの準備

クイックスタート: Amazon S3 でデータをクエリする