ステップ 1: Athena とを使用して Amazon S3 でデータのインデックスを作成する AWS Glue ステップ 2: Athena にアクセスするアクセス許可を Studio に付与するステップ 3: JupyterLab で Athena のデフォルト接続を有効にするステップ 4: Amazon S3 のデータにクエリを実行する

クイックスタート: Amazon S3 でデータをクエリする

ユーザーは、SQL 拡張機能を使用して JupyterLab ノートブックから SQL クエリを実行することで、Amazon S3 に保存されているデータを分析できます。SQL 拡張機能は Athena と統合されており、いくつかの追加ステップを実行すると、Amazon S3 内のデータ機能を有効にできます。

このセクションでは、Amazon S3 から Athena にデータをロードし、SQL 拡張機能を使用して JupyterLab からそのデータをクエリする手順について説明します。Amazon S3 データのインデックスを作成する Athena データソースと AWS Glue クローラを作成し、Athena への JupyterLab アクセスを有効にするための適切な IAM アクセス許可を設定し、JupyterLab を Athena に接続してデータをクエリします。このようないくつかのステップを実行すると、JupyterLab ノートブックの SQL 拡張機能を使用して Amazon S3 データを分析できます。

前提条件

管理者権限を持つ AWS Identity and Access Management (IAM) ユーザーアカウントを使用して AWS マネジメントコンソールにサインインします。 AWS アカウントにサインアップして、管理アクセス権を持つユーザーを作成する方法については、「Amazon SageMaker AI の前提条件を満たす」を参照してください。
SageMaker Studio にアクセスするための SageMaker AI ドメインとユーザープロファイルを用意します。SageMaker AI 環境を設定する方法については、「」を参照してくださいAmazon SageMaker AI のクイックセットアップを使用する。
SageMaker AI 環境と同じ AWS リージョンとアカウントを使用して、Athena クエリ結果を保存する Amazon S3 バケットとフォルダを用意します。Amazon S3 でバケットを作成する方法については、Amazon S3 ドキュメントの「バケットの作成」を参照してください。このバケットとフォルダをクエリ出力先として設定します。

Amazon S3 のデータにアクセスしてクエリするには

ステップ 1: Amazon S3 AWS Glue データの Athena データソースとクローラを設定する Amazon S3
ステップ 2: Athena にアクセスするアクセス許可を Studio に付与する
ステップ 3: JupyterLab で Athena のデフォルト接続を有効にする
ステップ 4: SQL 拡張機能を使用して JupyterLab ノートブックから Amazon S3 のデータをクエリする

ステップ 1: Amazon S3 AWS Glue データの Athena データソースとクローラを設定する Amazon S3

Amazon S3 のデータのインデックスを作成して、Athena でテーブルを作成するには、次の手順を実行します。

注記

さまざまな Amazon S3 ロケーションからのテーブル名の間での競合を回避するには、ロケーションごとに個別のデータソースとクローラーを作成します。各データソースは、プレフィックスが付いていない限り、保存されているフォルダ名に基づいた名前のテーブルを作成します。

クエリ結果の保存先を設定する
1. https://console.aws.amazon.com/athena/ で Athena コンソールを開きます。
2. 左側のメニューから [ワークグループ] を選択します。
3. primary ワークグループのリンクをクリックして、[編集] を選択します。
4. [クエリ結果の設定] セクションで、出力ディレクトリの Amazon S3 パスを入力し、[変更を保存] をクリックします。
Amazon S3 データの Athena データソースを作成する
1. Athena コンソールの左側のメニューから、[データソース]、[データソースの作成] の順に選択します。
2. S3 - AWS Glue Data Catalog を選択し、次へを選択します。
3. [このアカウントのAWS Glue データカタログ] はデフォルトのままにして、[ AWS Glueでクローラーを作成] をクリックしてから、[ AWS Glueでの作成] をクリックします。これにより、 AWS Glue コンソールが開きます。
AWS Glue を使用してデータソースをクロールする
1. 新しいクローラーの名前と説明を入力してから、[次へ] をクリックします。
2. [データソース] で、[データソースを追加] をクリックします。
  1. データを含む Amazon S3 バケットが SageMaker AI 環境とは異なる AWS アカウントにある場合は、S3 データの場所の別のアカウントでを選択します。
  2. Amazon S3 のデータセットへのパスを入力します。例:
```
s3://dsoaws/nyc-taxi-orig-cleaned-split-parquet-per-year-multiple-files/ride-info/year=2019/
```
  3. 他のデフォルト値はすべてそのままにして、[Amazon S3 データソースの追加] をクリックします。データソーステーブルに新しい Amazon S3 データソースが表示されるはずです。
  4. [次へ] を選択します。
3. データにアクセスするようにクローラーの IAM ロールを設定します。
  
  注記
  各ロールは、指定したデータソースにスコープダウンされます。ロールを再利用する場合は、JSON ポリシーを編集して、このデータソースへのアクセス権を付与する新しいリソースを追加するか、新しいロールを作成します。
  1. [新しい IAM ロールを作成] をクリックします。
  2. ロール名を入力してから、[次へ] をクリックします。
テーブルのデータベースを作成するか選択する
1. Athena に既存のデータベースがない場合は、[データベースを追加] をクリックしてから、[新しいデータベースを作成] をクリックします。
2. 以前のクローラー作成タブに戻り、[出力設定] で [更新] ボタンをクリックします。これで、新しく作成したデータベースがリストに表示されるはずです。
3. データベースを選択し、[テーブル名のプレフィックス] にオプションのプレフィックスを追加してから、[次へ] をクリックします。
  
  注記
  前の例ではデータが s3://dsoaws/nyc-taxi-orig-cleaned-split-parquet-per-year-multiple-files/ride-info/year=2019/ にあるため、プレフィックス taxi-ride- を追加すると、名前が taxi-ride-year_2019 というテーブルが作成されます。プレフィックスを追加すると、複数のデータロケーションに同じ名前のフォルダがある場合にテーブル名の競合を回避できます。
[クローラーを作成] をクリックします。
クローラーを実行して、データのインデックスを作成します。ステータスが Completed になるまでクローラーの実行を待ちます。これには数分かかる場合があります。

新しいテーブルが作成されていることを確認するには、の左側のメニューに移動 AWS Glue し、データベースとテーブルを選択します。これで、データを含む新しいテーブルが表示されるはずです。

ステップ 2: Athena にアクセスするアクセス許可を Studio に付与する

次の手順では、ユーザープロファイルの実行ロールに Athena にアクセスするためのアクセス許可を付与します。

ユーザープロファイルに関連付けられた実行ロールの ARN を取得する
1. https://console.aws.amazon.com/sagemaker/ の SageMaker AI コンソールに移動し、左側のメニューでドメインを選択します。
2. ドメイン名の名前をクリックします。
3. [ユーザープロファイル] リストで、ユーザープロファイルの名前をクリックします。
4. [ユーザーの詳細] ページで、実行ロールの ARN をコピーします。

実行ロールのポリシーを更新する

SageMaker AI コンソールの右上にある AWS リージョンとアカウント ID を見つけます。これらの値とデータベース名を使用して、テキストエディタで以下の JSON ポリシーのプレースホルダーを更新します。

JSON


{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "GetS3AndDataSourcesMetadata",
            "Effect": "Allow",
            "Action": [
                "glue:GetDatabases",
                "glue:GetSchema",
                "glue:GetTables",
                "s3:ListBucket",
                "s3:GetObject",
                "s3:GetBucketLocation",
                "glue:GetDatabase",
                "glue:GetTable",
                "glue:ListSchemas",
                "glue:GetPartitions"
            ],
            "Resource": [
                "arn:aws:s3:::*",
                "arn:aws:glue:us-east-1:111122223333:catalog",
                "arn:aws:glue:us-east-1:111122223333:database/db-name"
            ]
        },
        {
            "Sid": "ExecuteAthenaQueries",
            "Effect": "Allow",
            "Action": [
                "athena:ListDataCatalogs",
                "athena:ListDatabases",
                "athena:ListTableMetadata",
                "athena:StartQueryExecution",
                "athena:GetQueryExecution",
                "athena:RunQuery",
                "athena:StartSession",
                "athena:GetQueryResults",
                "athena:ListWorkGroups",
                "s3:ListMultipartUploadParts",
                "s3:ListBucket",
                "s3:GetBucketLocation",
                "athena:GetDataCatalog",
                "s3:AbortMultipartUpload",
                "s3:GetObject",
                "s3:PutObject",
                "athena:GetWorkGroup"
            ],
            "Resource": [
                "arn:aws:s3:::*"
            ]
        },
        {
            "Sid": "GetGlueConnectionsAndSecrets",
            "Effect": "Allow",
            "Action": [
                "glue:GetConnections",
                "glue:GetConnection"
            ],
            "Resource": [
                "*"
            ]
        }
    ]
}

https://console.aws.amazon.com/iam/ で IAM コンソールを開き、左側のメニューで [ロール] を選択します。
ロール名でロールを検索します。

注記
'/' で ARN を分割して、後半の要素を取得することで、Amazon リソースネーム (ARN) から実行ロール名を取得できます。例えば、次の ARN arn:aws:iam::112233445566:role/SageMakerStudio-SQLExtension-ExecutionRole を例にとると、実行ロール名は SageMakerStudio-SQLExtension-ExecutionRole です。
ロールのリンクをクリックします。
[アクセス許可] タブで、[許可を追加] をクリックしてから、[インラインポリシーを作成] をクリックします。
[ポリシーエディタ] セクションで、JSON 形式を選択します。
上記のポリシーをコピーして、[次へ] をクリックします。すべての account-id、region-name、db-name をそれぞれの値に置き換えたことを確認します。
ポリシー名を入力してから、[次へ] をクリックします。

ステップ 3: JupyterLab で Athena のデフォルト接続を有効にする

次の手順では、JupyterLab アプリケーションで default-athena-connection を有効にします。デフォルトの Athena 接続を使用すると、手動で接続を作成する必要なく、JupyterLab から直接 Athena で SQL クエリを実行できます。

デフォルトの Athena 接続を有効にするには

https://console.aws.amazon.com/sagemaker/ の SageMaker AI コンソールに移動し、左側のメニューで Studio を選択します。ドメインとユーザープロファイルを使用して、Studio を起動します。
JupyterLab アプリケーションを選択します。
JupyterLab アプリケーション用のスペースを作成していない場合は、[JupyterLab スペースの作成] を選択します。スペース名を入力し、スペースを [プライベート] のままにして、[スペースを作成] をクリックします。SageMaker AI ディストリビューションイメージの最新バージョンを使用してスペースを実行します。

それ以外の場合は、スペースで [実行スペース] を選択して、JupyterLab アプリケーションを起動します。
Athena のデフォルト接続を有効にする:
1. JupyterLab アプリケーションで、上部ナビゲーションバーの [設定] メニューに移動して、[設定エディタ] メニューを開きます。
2. [データ検出] をクリックします。
3. [デフォルトの Athena 接続を有効にする] チェックボックスをオンにします。
4. JupyterLab アプリケーションで、左側のナビゲーションペインの SQL 拡張機能アイコン ( ) をクリックして、SQL 拡張機能を開きます。
5. データ検出パネルの下部にある [更新] ボタンをクリックします。接続のリストに default-athena-connection が表示されるはずです。

ステップ 4: SQL 拡張機能を使用して JupyterLab ノートブックから Amazon S3 のデータをクエリする

これで、JupyterLab ノートブックで SQL を使用してデータをクエリする準備が整いました。

default-athena-connection の接続を開いてから、[AWS DataCatalog] を開きます。
データベースに移動し、右側の 3 つのドットアイコン ( ) をクリックします。[ノートブックでのクエリ] を選択します。

これにより、データソースに接続するために関連する %%sm_sql Magic コマンドが JupyterLab のノートブックセルに自動的に入力されます。直ちにクエリを開始するサポートを提供するサンプル SQL ステートメントも追加されます。

注記
SQL クエリを実行する前に、必ず上部セルに拡張機能をロードします。

拡張機能の自動完了機能と強調表示機能を使用して、SQL クエリをさらに改善できます。SQL 拡張機能の SQL エディタの使用の詳細については、「JupyterLab SQL 拡張機能の SQL エディタ機能」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Studio での SQL によるデータ準備

機能の概要と使用状況