AWS Glue Studio でデータレイクフレームワークを使用する - AWS Glue

AWS Glue Studio でデータレイクフレームワークを使用する

データソースでデータレイクフレームワークを使用する

Amazon S3 データソースでデータレイクフレームワークを使用する

  1. [Source] (ソース) メニューで、[Amazon S3] を選択します。

  2. Amazon S3 ソースタイプとしてデータカタログテーブルを選択する場合は、データベースとテーブルを選択します。

  3. AWS Glue Studio に、Delta Lake と Amazon S3 URL がフォーマットとして表示されます。

  4. [Additional options] (追加オプション) をクリックし、キー値ペアを入力します。例えば、キーと値のペアは次のようになります。キー: timestampAsOf、: 2023-02-24 14:16:18。

    このスクリーンショットは、Amazon S3 データソースノードの [Data source properties] (データソースプロパティ) タブにある [Additional options] (追加オプション) のセクションです
  5. Amazon S3 ソースタイプとして Amazon S3 の場所を選択する場合は、[Browse Amazon S3] (Amazon S3 を参照) をクリックして Amazon S3 URL を選択します。

  6. [Data format] (データ形式) で [Delta Lake] を選択します。

    注記

    AWS Glue Studio が、選択した Amazon S3 フォルダまたはファイルからスキーマを推測できない場合は、[Additional options] (追加オプション) を選択し、新しいフォルダまたはファイルを選択します。

    [Additional options] (追加オプション) の [Schema inference] (スキーマ推論) から、次のオプションを選択します。

    • [AWS Glue Studio にサンプルファイルを自動選択させる] — スキーマを推測できるよう、AWS Glue Studio が Amazon S3 の場所にあるサンプルファイルを選択します。自動選択されたファイルは [Auto-sampled file] (自動サンプル化ファイル) フィールドで確認できます。

    • [Choose a sample file from Amazon S3] (Amazon S3 からサンプルファイルを選択) - [Browse Amazon S3] (Amazon S3 を参照) をクリックし、使用する使用する Amazon S3 ファイルを選択します。

  7. [Infer schema] (スキーマを推測) をクリックします。続いて、[Output schema] (出力スキーマ) タブをクリックすると、出力スキーマを確認できます。

データカタログのデータソースで Delta Lake フレームワークを使用する

  1. [ソース] メニューで、[AWS Glue Studio データカタログ] を選択します。

  2. [Data source properties] (データソースのプロパティ) タブで、データベースとテーブルを選択します。

  3. AWS Glue Studio に、フォーマットタイプとして Delta Lake と Amazon S3 URL が表示されます。

    注記

    Delta Lake ソースが AWS Glue データカタログテーブルとしてまだ登録されていない場合は、次の 2 つの方法があります。

    1. Delta Lake データストアの AWS Glue クローラーを作成します。詳細は、「Delta Lake データストアの設定オプションを指定する方法」を参照してください。

    2. Amazon S3 データソースを使用して Delta Lake のデータソースを選択します。「 Amazon S3 データソースでデータレイクフレームワークを使用する 」を参照してください。

データターゲットで Delta Lake フォーマットを使用する

データカタログのデータターゲットで Delta Lake フォーマットを使用する

  1. [ターゲット] メニューで [AWS Glue Studio データカタログ] を選択します。

  2. [Data source properties] (データソースのプロパティ) タブで、データベースとテーブルを選択します。

  3. AWS Glue Studio に、フォーマットタイプとして Delta Lake と Amazon S3 URL が表示されます。

Amazon S3 データソースで Delta Lake フォーマットを使用する

値を入力するか使用可能なオプションの中から選択し、Delta Lake 形式を設定します。

  • [Compression Type] (圧縮タイプ) — 圧縮タイプ (非圧縮、Snappy) の中から 1 つ選択します。

  • [Amazon S3 Target Location] (Amazon S3 ターゲットの場所) — [Browse S3] (S3 を参照) をクリックして Amazon S3 ターゲットの場所を選択します。

  • [Data Catalog update options] (データカタログ更新オプション) — Glue Studio ビジュアルエディターでは、この形式のデータカタログの更新はサポートされていません。

    • Do not update the Data Catalog(データカタログを更新しない): (デフォルト) スキーマが変更されたり、新しいパーティションが追加された場合、ジョブでデータカタログを更新したくない場合は、このオプションを選択します。

    • AWS Glue ジョブの実行後にデータカタログを更新するには、AWS Glue クローラーを実行またはスケジュールします。詳細は、「Delta Lake データストアの設定オプションを指定する方法」を参照してください。

  • [Partition keys] (パーティションキー): 出力でパーティションキーとして使用する列を選択します。さらにパーティションキーを追加するには、[Add a partition key] (パーティションキーの追加) を選択します。

  • [Additional options] (追加オプション) をクリックして、キー値ペアを入力します。例えば、キーと値のペアは次のようになります。キー: timestampAsOf、: 2023-02-24 14:16:18。