AWS Glue Studio でデータレイクフレームワークを使用する
データソースでデータレイクフレームワークを使用する
Amazon S3 データソースでデータレイクフレームワークを使用する
-
[Source] (ソース) メニューで、[Amazon S3] を選択します。
-
Amazon S3 ソースタイプとしてデータカタログテーブルを選択する場合は、データベースとテーブルを選択します。
-
AWS Glue Studio に、Delta Lake と Amazon S3 URL がフォーマットとして表示されます。
-
[Additional options] (追加オプション) をクリックし、キー値ペアを入力します。例えば、キーと値のペアは次のようになります。キー: timestampAsOf、値: 2023-02-24 14:16:18。
-
Amazon S3 ソースタイプとして Amazon S3 の場所を選択する場合は、[Browse Amazon S3] (Amazon S3 を参照) をクリックして Amazon S3 URL を選択します。
-
[Data format] (データ形式) で [Delta Lake] を選択します。
注記
AWS Glue Studio が、選択した Amazon S3 フォルダまたはファイルからスキーマを推測できない場合は、[Additional options] (追加オプション) を選択し、新しいフォルダまたはファイルを選択します。
[Additional options] (追加オプション) の [Schema inference] (スキーマ推論) から、次のオプションを選択します。
-
[AWS Glue Studio にサンプルファイルを自動選択させる] — スキーマを推測できるよう、AWS Glue Studio が Amazon S3 の場所にあるサンプルファイルを選択します。自動選択されたファイルは [Auto-sampled file] (自動サンプル化ファイル) フィールドで確認できます。
-
[Choose a sample file from Amazon S3] (Amazon S3 からサンプルファイルを選択) - [Browse Amazon S3] (Amazon S3 を参照) をクリックし、使用する使用する Amazon S3 ファイルを選択します。
-
-
[Infer schema] (スキーマを推測) をクリックします。続いて、[Output schema] (出力スキーマ) タブをクリックすると、出力スキーマを確認できます。
データカタログのデータソースで Delta Lake フレームワークを使用する
-
[ソース] メニューで、[AWS Glue Studio データカタログ] を選択します。
-
[Data source properties] (データソースのプロパティ) タブで、データベースとテーブルを選択します。
-
AWS Glue Studio に、フォーマットタイプとして Delta Lake と Amazon S3 URL が表示されます。
注記
Delta Lake ソースが AWS Glue データカタログテーブルとしてまだ登録されていない場合は、次の 2 つの方法があります。
-
Delta Lake データストアの AWS Glue クローラーを作成します。詳細は、「Delta Lake データストアの設定オプションを指定する方法」を参照してください。
-
Amazon S3 データソースを使用して Delta Lake のデータソースを選択します。「 Amazon S3 データソースでデータレイクフレームワークを使用する 」を参照してください。
-
データターゲットで Delta Lake フォーマットを使用する
データカタログのデータターゲットで Delta Lake フォーマットを使用する
-
[ターゲット] メニューで [AWS Glue Studio データカタログ] を選択します。
-
[Data source properties] (データソースのプロパティ) タブで、データベースとテーブルを選択します。
-
AWS Glue Studio に、フォーマットタイプとして Delta Lake と Amazon S3 URL が表示されます。
Amazon S3 データソースで Delta Lake フォーマットを使用する
値を入力するか使用可能なオプションの中から選択し、Delta Lake 形式を設定します。
-
[Compression Type] (圧縮タイプ) — 圧縮タイプ (非圧縮、Snappy) の中から 1 つ選択します。
-
[Amazon S3 Target Location] (Amazon S3 ターゲットの場所) — [Browse S3] (S3 を参照) をクリックして Amazon S3 ターゲットの場所を選択します。
-
[Data Catalog update options] (データカタログ更新オプション) — Glue Studio ビジュアルエディターでは、この形式のデータカタログの更新はサポートされていません。
-
Do not update the Data Catalog(データカタログを更新しない): (デフォルト) スキーマが変更されたり、新しいパーティションが追加された場合、ジョブでデータカタログを更新したくない場合は、このオプションを選択します。
-
AWS Glue ジョブの実行後にデータカタログを更新するには、AWS Glue クローラーを実行またはスケジュールします。詳細は、「Delta Lake データストアの設定オプションを指定する方法」を参照してください。
-
-
[Partition keys] (パーティションキー): 出力でパーティションキーとして使用する列を選択します。さらにパーティションキーを追加するには、[Add a partition key] (パーティションキーの追加) を選択します。
-
[Additional options] (追加オプション) をクリックして、キー値ペアを入力します。例えば、キーと値のペアは次のようになります。キー: timestampAsOf、値: 2023-02-24 14:16:18。