Amazon Redshift データを使用した Amazon DataZone クイックスタート - Amazon DataZone

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Redshift データを使用した Amazon DataZone クイックスタート

ステップ 1 - Amazon DataZone ドメインとデータポータルを作成する

Amazon DataZone ドメインを作成するには、次の手順を実行します。Amazon DataZone ドメインの詳細については、「」を参照してくださいAmazon DataZone の用語と概念

  1. https://console.aws.amazon.com/datazone で Amazon DataZone コンソールに移動し、サインインして、ドメインの作成 を選択します。

    注記

    このワークフローに既存の Amazon DataZone ドメインを使用する場合は、ドメインの表示 を選択し、使用するドメインを選択してから、公開プロジェクトの作成のステップ 2 に進みます。

  2. ドメインの作成ページで、次のフィールドに値を指定します。

    • 名前 - ドメインの名前を指定します。このワークフローでは、このドメイン を呼び出すことができますMarketing

    • 説明 - オプションのドメインの説明を指定します。

    • データ暗号化 - データは、 AWS が所有および管理するキーでデフォルトで暗号化されます。このチュートリアルでは、デフォルトのデータ暗号化設定のままにしておくことができます。

      カスタマーマネージドキーの使用の詳細については、「」を参照してくださいAmazon の保管時のデータ暗号化 DataZone。データ暗号化に独自の KMS キーを使用する場合は、デフォルトの に次のステートメントを含める必要がありますAmazonDataZoneDomainExecutionRole

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
    • サービスアクセス - カスタムサービスロールの使用 オプションを選択し、ドロップダウンメニューAmazonDataZoneDomainExecutionRoleから を選択します。

    • 「高速セットアップ」で、データ消費と の公開のためにこのアカウントを設定するを選択します。このオプションは、データレイクデータウェアハウスの組み込み Amazon DataZone ブループリントを有効にし、このワークフローの残りのステップを完了するために必要なアクセス許可とリソースを設定します。Amazon DataZone ブループリントの詳細については、「」を参照してくださいAmazon DataZone の用語と概念

    • アクセス許可の詳細タグの残りのフィールドは変更せずに、ドメインの作成 を選択します。

  3. ドメインが正常に作成されたら、このドメインを選択し、ドメインの概要ページで、このドメインのデータポータル URL を書き留めます。この URL を使用して Amazon DataZone データポータルにアクセスし、このワークフローの残りのステップを完了できます。

注記

Amazon の現在のリリースでは DataZone、ドメインが作成されると、データポータル用に生成された URL を変更することはできません。

ドメインの作成が完了するまでに数分かかる場合があります。次のステップに進む前に、ドメインのステータスが Available になるまで待ちます。

ステップ 2 - 公開プロジェクトを作成する

次のセクションでは、このワークフローで公開プロジェクトを作成する手順について説明します。

  1. ステップ 1 を完了したら、 DataZone データポータル URL を使用して Amazon データポータルに移動し、シングルサインオン (SSO) または AWS IAM 認証情報を使用してログインします。

  2. 「プロジェクトの作成」を選択し、プロジェクト名を指定します。例えば、このワークフローでは、名前を にしSalesDataPublishingProject、残りのフィールドは変更せずにおき、「作成」を選択します。

ステップ 3 - 環境を作成する

次のセクションでは、このワークフローで環境を作成する手順について説明します。

  1. ステップ 2 を完了したら、Amazon DataZone データポータルで、前のステップで作成したSalesDataPublishingProjectプロジェクトを選択し、環境 タブを選択し、環境の作成 を選択します。

  2. 「環境の作成」ページで以下を指定し、「環境の作成」を選択します。

    • 名前 - 環境の名前を指定します。このチュートリアルでは、 と呼びますDefault data warehouse environment

    • 説明 - 環境の説明を指定します。

    • 環境プロファイル - DataWarehouseProfile環境プロファイルを選択します。

    • Amazon Redshift クラスターの名前、データベース名、およびデータが保存されている Amazon Redshift クラスターのシークレット ARN を指定します。

      注記

      AWS Secrets Manager のシークレットに次のタグ (キー/値) が含まれていることを確認します。

      • Amazon Redshift クラスターの場合 - datazone.rs.cluster: <cluster_name:database name>

        Amazon Redshift Serverless ワークグループの場合 - datazone.rs.workgroup: <workgroup_name:database_name>

      • AmazonDataZoneProject: <projectID >

      • AmazonDataZoneDomain: <domainID >

      詳細については、「 AWS Secrets Manager でのデータベース認証情報の保存」を参照してください。

      AWS Secrets Manager で指定するデータベースユーザーには、スーパーユーザーアクセス許可が必要です。

ステップ 4 - 公開用のデータを生成する

次のセクションでは、このワークフローで公開するデータを生成する手順について説明します。

  1. ステップ 3 を完了したら、Amazon DataZone データポータルでSalesDataPublishingProjectプロジェクトを選択し、右側のパネルの分析ツール Amazon Redshift を選択します。これにより、認証にプロジェクトの認証情報を使用して Amazon Redshift クエリエディタが開きます。

  2. このチュートリアルでは、Create Table as Select (CTAS) クエリスクリプトを使用して、Amazon に発行する新しいテーブルを作成します DataZone。クエリエディタで、この CTAS スクリプトを実行して、公開して検索とサブスクリプションに使用できるmkt_sls_tableテーブルを作成します。

    CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

    m""_sls_table テーブルが正常に作成されたことを確認します。これで、Amazon DataZone カタログに公開できるデータアセットができました。

ステップ 5 - Amazon Redshift からメタデータを収集する

次のセクションでは、Amazon Redshift からメタデータを収集する手順について説明します。

  1. ステップ 4 を完了したら、Amazon DataZone データポータルでSalesDataPublishingProjectプロジェクトを選択し、データタブを選択し、データソースを選択します

  2. 環境作成プロセスの一部として作成されたソースを選択します。

  3. アクションドロップダウンメニューの横にある実行 を選択し、更新ボタンを選択します。データソースの実行が完了すると、アセットが Amazon DataZone インベントリに追加されます。

ステップ 6 - データアセットをキュレートして公開する

次のセクションでは、このワークフローでデータアセットをキュレートして公開する手順について説明します。

  1. ステップ 5 を完了したら、Amazon DataZone データポータルでSalesDataPublishingProjectプロジェクトを選択し、データタブを選択し、インベントリデータ を選択し、mkt_sls_tableテーブルを見つけます。

  2. mkt_sls_table アセットの詳細ページを開いて、自動的に生成されたビジネス名を表示します。自動生成されたメタデータアイコンを選択すると、アセットと列の自動生成された名前が表示されます。各名前を個別に承諾または拒否するか、すべて承諾を選択して生成された名前を適用できます。必要に応じて、使用可能なメタデータフォームをアセットに追加し、用語集の用語を選択してデータを分類することもできます。

  3. mkt_sls_table アセットを公開するには、公開を選択します。

ステップ 7 - データ分析用のプロジェクトを作成する

次のセクションでは、このワークフローでデータ分析用の te プロジェクトを作成する手順について説明します。

  1. ステップ 6 を完了したら、Amazon DataZone データポータルでプロジェクトの作成 を選択します。

  2. 「プロジェクトの作成」ページでプロジェクト名を指定します。例えば、このワークフローでは、名前を にしMarketingDataAnalysisProject、残りのフィールドは変更せずにおき、「作成」を選択します。

ステップ 8 - データ分析用の環境を作成する

次のセクションでは、このワークフローでデータ分析用の環境を作成する手順について説明します。

  1. ステップ 7 を完了したら、Amazon DataZone データポータルで、前のステップで作成したMarketingDataAnalysisProjectプロジェクトを選択し、環境 タブを選択し、環境の追加 を選択します。

  2. 「環境の作成」ページで以下を指定し、「環境の作成」を選択します。

    • 名前 - 環境の名前を指定します。このチュートリアルでは、 と呼びますDefault data warehouse environment

    • 説明 - 環境の説明を指定します。

    • 環境プロファイル - DataWarehouseProfile環境プロファイルを選択します。

    • Amazon Redshift クラスターの名前、データベース名、およびデータが保存されている Amazon Redshift クラスターのシークレット ARN を指定します。

      注記

      AWS Secrets Manager のシークレットに次のタグ (キー/値) が含まれていることを確認します。

      • Amazon Redshift クラスターの場合 - datazone.rs.cluster: <cluster_name:database name>

        Amazon Redshift Serverless ワークグループの場合 - datazone.rs.workgroup: <workgroup_name:database_name>

      • AmazonDataZoneProject: <projectID >

      • AmazonDataZoneDomain: <domainID >

      詳細については、「 AWS Secrets Manager でのデータベース認証情報の保存」を参照してください。

      AWS Secrets Manager で指定するデータベースユーザーには、スーパーユーザーアクセス許可が必要です。

    • このチュートリアルでは、残りのフィールドは変更しないでください。

ステップ 9 - データカタログを検索してデータをサブスクライブする

次のセクションでは、データカタログを検索し、データをサブスクライブする手順について説明します。

  1. ステップ 8 を完了したら、Amazon DataZone データポータルで、データポータルの検索バーでキーワード (「カタログ」や「売上」など) を使用してデータアセットを検索します。

    必要に応じて、フィルターまたはソートを適用し、製品販売データアセットを見つけたら、それを選択してアセットの詳細ページを開くことができます。

  2. 製品販売データアセットの詳細ページで、「サブスクライブ」を選択します。

  3. ダイアログで、ドロップダウンからコンシューマープロジェクトを選択し、アクセスリクエストの理由を入力し、「サブスクライブ」を選択します。

ステップ 10 - サブスクリプションリクエストを承認する

次のセクションでは、このワークフローでサブスクリプションリクエストを承認する手順について説明します。

  1. Amazon DataZone データポータルでステップ 9 を完了したら、アセットを公開したSalesDataPublishingProjectプロジェクトを選択します。

  2. データタブを選択し、次に公開されたデータ を選択し、次に着信リクエスト を選択します。

  3. ビューリクエストリンクを選択し、承認 を選択します。

ステップ 11 - Amazon Redshift でクエリを構築し、データを分析する

アセットを Amazon DataZone カタログに正常に公開し、サブスクライブしたので、分析できます。

  1. Amazon DataZone データポータルの右側のパネルで、Amazon Redshift リンクをクリックします。これにより、認証にプロジェクトの認証情報を使用して Amazon Redshift クエリエディタが開きます。

  2. サブスクライブされたテーブルでクエリ (select ステートメント) を実行できるようになりました。テーブル (three-vertical-dots オプション) をクリックし、プレビューを選択すると、エディタ画面で select ステートメントが表示されます。クエリを実行して結果を表示します。