AWS Glue データを使用した Amazon DataZone クイックスタート - Amazon DataZone

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue データを使用した Amazon DataZone クイックスタート

ステップ 1 - Amazon DataZone ドメインとデータポータルを作成する

このセクションでは、このワークフロー用の Amazon DataZone ドメインとデータポータルを作成する手順について説明します。

Amazon DataZone ドメインを作成するには、次の手順を実行します。Amazon DataZone ドメインの詳細については、「」を参照してくださいAmazon DataZone の用語と概念

  1. https://console.aws.amazon.com/datazone で Amazon DataZone コンソールに移動し、サインインして、ドメイン の作成を選択します

    注記

    このワークフローに既存の Amazon DataZone ドメインを使用する場合は、ドメインを表示 を選択し、使用するドメインを選択してから、公開プロジェクトの作成のステップ 2 に進みます。

  2. ドメインの作成ページで、次のフィールドに値を指定します。

    • 名前 - ドメインの名前を指定します。このワークフローでは、このドメインのマーケティング を呼び出すことができます。

    • 説明 - オプションのドメインの説明を指定します。

    • データ暗号化 - データは、 AWS が所有および管理するキーでデフォルトで暗号化されます。このユースケースでは、デフォルトのデータ暗号化設定のままにしておくことができます。

      カスタマーマネージドキーの使用の詳細については、「」を参照してくださいAmazon の保管時のデータ暗号化 DataZone。データ暗号化に独自の KMS キーを使用する場合は、デフォルトの に次のステートメントを含める必要がありますAmazonDataZoneDomainExecutionRole

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
    • サービスアクセス - デフォルトでは、 を選択したままにします。デフォルトのロールオプションは変更されません。

      注記

      このワークフローに既存の Amazon DataZone ドメインを使用している場合は、既存のサービスロールを使用するオプションを選択し、ドロップダウンメニューから既存のロールを選択できます。

    • 「クイックセットアップ」で、データ消費と の公開のためにこのアカウントを設定するを選択します。このオプションは、データレイクデータウェアハウスの組み込み Amazon DataZone ブループリントを有効にし、このアカウントの必要なアクセス許可、リソース、デフォルトのプロジェクト、デフォルトのデータレイクとデータウェアハウス環境プロファイルを設定します。Amazon DataZone ブループリントの詳細については、「」を参照してくださいAmazon DataZone の用語と概念

    • アクセス許可の詳細の残りのフィールドは変更しないでください。

      注記

      既存の Amazon DataZone ドメインがある場合は、既存のサービスロールを使用するオプションを選択し、 Glue 管理アクセスロール 、Redshift 管理アクセスロール 、およびプロビジョニングロール のドロップダウンメニューから既存のロールを選択できます。

    • タグの下のフィールドは変更しないでください。

    • [ドメインの作成] をクリックします。

  3. ドメインが正常に作成されたら、このドメインを選択し、ドメインの概要ページで、このドメインのデータポータル URL を書き留めます。この URL を使用して Amazon DataZone データポータルにアクセスし、このワークフローの残りのステップを完了できます。Open data portal を選択して、データポータルに移動することもできます。

注記

Amazon の現在のリリースでは DataZone、ドメインが作成されると、データポータル用に生成された URL を変更することはできません。

ドメインの作成が完了するまでに数分かかる場合があります。次のステップに進む前に、ドメインのステータスが Available になるまで待ちます。

ステップ 2 - 公開プロジェクトを作成する

このセクションでは、このワークフローの発行プロジェクトを作成するために必要な手順について説明します。

  1. 上記のステップ 1 を完了してドメインを作成すると、Amazon DataZone! へようこそウィンドウが表示されます。このウィンドウで、プロジェクトの作成 を選択します。

  2. プロジェクト名を指定します。例えば、このワークフローでは、名前を にしSalesDataPublishingProject、残りのフィールドは変更せずにおき、 の作成 を選択します。

ステップ 3 - 環境を作成する

このセクションでは、このワークフローの環境を作成するために必要な手順について説明します。

  1. 上記のステップ 2 を完了してプロジェクトを作成すると、プロジェクトが使用できるウィンドウが表示されます。このウィンドウで、環境の作成 を選択します。

  2. 「環境の作成」ページで以下を指定し、「環境の作成」を選択します。

  3. 以下の値を指定します。

    • 名前 - 環境の名前を指定します。このチュートリアルでは、 と呼びますDefault data lake environment

    • 説明 - 環境の説明を指定します。

    • 環境プロファイル - DataLakeProfile環境プロファイルを選択します。これにより、このワークフロー DataZone で Amazon を使用して、Amazon S3、 AWS Glue Catalog、および Amazon Athena 内のデータを操作できます。

    • このチュートリアルでは、残りのフィールドは変更しないでください。

  4. [Create environment (環境の作成)] を選択します。

ステップ 4 - 公開用のデータを生成する

このセクションでは、このワークフローで公開するためのデータを生成するために必要な手順について説明します。

  1. 上記のステップ 3 を完了したら、SalesDataPublishingProjectプロジェクトで右側のパネルの分析ツール Amazon Athenaを選択します。これにより、プロジェクトの認証情報を使用して認証用の Athena クエリエディタが開きます。Amazon 環境ドロップダウンで公開 DataZone 環境が選択され、クエリエディタで<environment_name>%_pub_dbデータベースが として選択されていることを確認します。

  2. このチュートリアルでは、Create Table as Select (CTAS) クエリスクリプトを使用して、Amazon に発行する新しいテーブルを作成します DataZone。クエリエディタで、この CTAS スクリプトを実行して、公開して検索とサブスクリプションに使用できるmkt_sls_tableテーブルを作成します。

    CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

    左側の「テーブルとビュー」セクションに m""_sls_table テーブルが正常に作成されていることを確認します。これで、Amazon DataZone カタログに公開できるデータアセットができました。

ステップ 5 - Glue から AWS メタデータを収集する

このセクションでは、このワークフローのために AWS Glue からメタデータを収集するステップについて説明します。

  1. 上記のステップ 4 を完了したら、Amazon DataZone データポータルでSalesDataPublishingProjectプロジェクトを選択し、データタブを選択し、左側のパネルでデータソースを選択します。

  2. 環境作成プロセスの一部として作成されたソースを選択します。

  3. アクションドロップダウンメニューの横にある実行 を選択し、更新ボタンを選択します。データソースの実行が完了すると、アセットが Amazon DataZone インベントリに追加されます。

ステップ 6 - データアセットをキュレートして公開する

このセクションでは、このワークフローでデータアセットをキュレートして公開する手順について説明します。

  1. 上記のステップ 5 を完了したら、Amazon DataZone データポータルで、前のステップで作成したSalesDataPublishingProjectプロジェクトを選択し、データタブを選択し、左側のパネルでインベントリデータを選択し、mkt_sls_tableテーブルを見つけます。

  2. mkt_sls_table アセットの詳細ページを開いて、自動的に生成されたビジネス名を表示します。自動生成されたメタデータアイコンを選択すると、アセットと列の自動生成された名前が表示されます。各名前を個別に承諾または拒否するか、すべて承諾を選択して生成された名前を適用できます。必要に応じて、使用可能なメタデータフォームをアセットに追加し、用語集の用語を選択してデータを分類することもできます。

  3. アセットを発行を選択してアセットを発行しますmkt_sls_table

ステップ 7 - データ分析用のプロジェクトを作成する

このセクションでは、データ分析用のプロジェクトを作成する手順について説明します。これは、このワークフローのデータコンシューマーステップの始まりです。

  1. 上記のステップ 6 を完了したら、Amazon DataZone データポータルで、プロジェクトドロップダウンメニューからプロジェクトの作成を選択します。

  2. 「プロジェクトの作成」ページでプロジェクト名を指定します。例えば、このワークフローでは、名前を にしMarketingDataAnalysisProject、残りのフィールドは変更せずにおき、「作成」を選択します。

ステップ 8 - データ分析用の環境を作成する

このセクションでは、データ分析用の環境を作成する手順について説明します。

  1. 上記のステップ 7 を完了したら、Amazon DataZone データポータルでMarketingDataAnalysisProjectプロジェクトを選択し、環境 タブを選択し、環境の作成 を選択します。

  2. 「環境の作成」ページで以下を指定し、「環境の作成」を選択します。

    • 名前 - 環境の名前を指定します。このチュートリアルでは、 と呼びますDefault data lake environment

    • 説明 - 環境の説明を指定します。

    • 環境プロファイル - 組み込みDataLakeProfile環境プロファイルを選択します。

    • このチュートリアルでは、残りのフィールドは変更しないでください。

ステップ 9 - データカタログを検索してデータをサブスクライブする

このセクションでは、データカタログを検索し、データをサブスクライブする手順について説明します。

  1. 上記のステップ 8 を完了したら、Amazon DataZone データポータルで Amazon DataZone アイコンを選択し、Amazon DataZone Search フィールドで、データポータルの検索バーでキーワード (「カタログ」や「売上」など) を使用してデータアセットを検索します。

    必要に応じて、フィルターまたはソートを適用し、製品販売データアセットを見つけたら、それを選択してアセットの詳細ページを開くことができます。

  2. Catalog Sales Data アセットの詳細ページで、「サブスクライブ」を選択します。

  3. Subscribe ダイアログで、ドロップダウンからMarketingDataAnalysisProjectコンシューマープロジェクトを選択し、サブスクリプションリクエストの理由を指定し、Subscribe を選択します。

ステップ 10 - サブスクリプションリクエストを承認する

このセクションでは、サブスクリプションリクエストを承認する手順について説明します。

  1. 上記のステップ 9 を完了したら、Amazon DataZone データポータルで、アセットを公開したSalesDataPublishingProjectプロジェクトを選択します。

  2. データタブを選択し、次に公開されたデータ を選択し、次に着信リクエスト を選択します。

  3. これで、承認が必要な新しいリクエストの行が表示されます。リクエストの表示 を選択します。承認の理由を入力し、承認 を選択します。

ステップ 11 - Amazon Athena でクエリを構築し、データを分析する

アセットを Amazon DataZone カタログに正常に公開し、サブスクライブしたので、分析できます。

  1. Amazon DataZone データポータルでコンシューマーMarketingDataAnalysisProjectプロジェクトを選択し、右側のパネルの分析ツール で Amazon Athena とのクエリデータリンクを選択します。これにより、プロジェクトの認証情報を使用して認証用の Amazon Athena クエリエディタが開きます。クエリエディタの Amazon DataZone Environment ドロップダウンからMarketingDataAnalysisProjectコンシューマー環境を選択し、データベースドロップダウン<environment_name>%sub_dbからプロジェクトの を選択します。

  2. サブスクライブされたテーブルでクエリを実行できるようになりました。テーブルとビュー からテーブルを選択しプレビュー を選択してエディタ画面で Select ステートメントを表示できます。クエリを実行して結果を表示します。