AWS Glue
開発者ガイド

データストアにアクセスするための環境のセットアップ

抽出、変換、およびロード (ETL) ジョブを実行するには,AWS Glue がデータストアにアクセスできる必要があります。Virtual Private Cloud (VPC) サブネットでジョブを実行する必要がない場合—たとえば Amazon S3 から Amazon S3 へのデータ変換など — は、追加の設定は必要ありません。

ジョブを VPC サブネットで実行する必要がある場合—たとえば、プライベートサブネット内の JDBC データストアからデータを変換する場合—AWS Glue は、ジョブを VPC 内の他のリソースに安全に接続できるようにする Elastic Network Interfaces を設定します。それぞれの伸縮自在なネットワークインターフェイスには、指定したサブネット内の IP アドレス範囲からプライベート IP アドレスが割り当てられます。パブリック IP アドレスは割り当てられません。AWS Glue 接続で指定されたセキュリティグループは、各 Elastic Network Interface に適用されます。詳細については、「JDBC データストアに接続するための VPC の設定」を参照してください。

ジョブによってアクセスされるすべての JDBC データストアは、VPC サブネットから使用できる必要があります。VPC 内から Amazon S3 にアクセスするには VPC エンドポイントが必須です。ジョブが VPC リソースとパブリックインターネットの両方にアクセスする必要がある場合は、 VPC 内にネットワークアドレス変換 (NAT) ゲートウェイが必要になります。

ジョブまたは開発エンドポイントは、一度に 1 つの VPC (およびサブネット) にのみアクセスできます。異なる VPC のデータストアにアクセスする必要がある場合は、次のオプションがあります。

  • VPC ピア接続を使用してデータストアにアクセスします。VPC ピア接続の詳細については、「VPC ピア接続の基本」を参照してください。

  • 中間ストレージの場所として Amazon S3 バケットを使用します。ジョブ 1 の Amazon S3 出力をジョブ 2 への入力として、作業を 2 つのジョブに分割します。

JDBC データストアの場合、データストアに接続するために必要なプロパティを使用して AWS Glue で接続を作成します。接続の詳細については、「データストアへの接続の追加」を参照してください。

注記

AWS Glue の DNS 環境を必ず設定してください。詳細については、「VPC での DNS のセットアップ」を参照してください。