データソースに Data Catalog テーブルを使用する - AWS Glue Studio

データソースに Data Catalog テーブルを使用する

Amazon S3 とコネクタを除くすべてのデータソースでは、選択するソースタイプの AWS Glue Data Catalog にテーブルが存在する必要があります。AWS Glue Studio はデータカタログログを生成しません。

Data Catalog テーブルに基づいてデータソースノードを設定するには
  1. 新規または保存済みのジョブのビジュアルエディタに移動します。

  2. ジョブ図でデータソースノードを選択します。

  3. [Data source properties] (データソースのプロパティ) タブを選択して、次の情報を入力します。

    • S3 source type (S3 ソースタイプ): (Amazon S3 データソースのみ) [Select a Catalog table] (Catalog テーブルを選択) オプションを選択して、既存の AWS Glue Data Catalog テーブルを使用します。

    • Database (データベース): このジョブに使用するソーステーブルを含む Data Catalog のデータベースを選択します。検索フィールドを使用して、名前でデータベースを検索できます。

    • Table (テーブル): ソースデータに関連付けられたテーブルをリストから選択します。このテーブルは、既に AWS Glue Data Catalog に存在している必要があります。検索フィールドを使用して、名前でテーブルを検索できます。

    • Partition predicate (パーティション述語):(Amazon S3 データソースのみ) パーティション列のみを含む Spark SQL に基づいてブール式を入力します。例: "(year=='2020' and month=='04')"

    • Temporary directory (一時ディレクトリ): (Amazon Redshift データソースのみ) ETL ジョブが一時的な中間結果を書き込める Amazon S3 の作業ディレクトリの場所のパスを入力します。

    • Role associated with the cluster (クラスターに関連付けられたロール): (Amazon Redshift データソースのみ) Amazon Redshift クラスターのアクセス許可を含む、使用する ETL ジョブのロールを入力します。詳細については、「データソースとデータターゲットのアクセス許可」を参照してください。