AWS Glue Studio でビジュアル ETL ジョブを作成する - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue Studio でビジュアル ETL ジョブを作成する

AWS Glue ジョブには、ソースデータに接続して処理し、データターゲットに書き出すスクリプトがカプセル化されています。通常、ジョブは、抽出、変換、ロード (ETL) スクリプトを実行します。ジョブは、Apache Spark および Ray ランタイム環境向けに設計されたスクリプトを実行できます。ジョブでは、汎用 Python スクリプト (Python シェルジョブ) を実行することもできます。AWS Glue トリガーでは、スケジュールまたはイベントに基づいて、またはオンデマンドでジョブを開始できます。ジョブ実行をモニタリングすると、完了ステータス、継続時間、開始時間などのランタイムメトリクスを知ることができます。

AWS Glue で生成されたスクリプトを使用することも、独自のスクリプトを使用することもできます。ソーススキーマとターゲット位置またはスキーマを指定すると、AWS Glue Studio コードジェネレーターで Apache Spark API (PySpark) スクリプトを自動的に作成できます。このスクリプトを出発点として使用し、目標に合わせて編集できます。

AWS Glue では出力ファイルを複数のデータ形式で書き込むことができます。各ジョブタイプは異なる出力形式をサポートしている場合があります。一部のデータ形式では、一般的な圧縮形式を記述できます。

AWS Glue コンソールにサインインする

AWS Glue でのジョブは、抽出、変換、ロード (ETL) 作業を実行するビジネスロジックで構成されます。 コンソールの [ETLAWS Glue] セクションでジョブを作成できます。

既存のジョブを表示するには、AWS Management Console にサインインし、AWS Glue コンソール (https://console.aws.amazon.com/glue/) を開きます。その後、 の [ジョブAWS Glue] タブを選択します。[Jobs] (ジョブ) リストは、ジョブが最後に変更されたとき各ジョブに関連付けられたスクリプトの場所、および現在のジョブのブックマークオプションを表示します。

新しいジョブの作成中またはジョブの保存後、can AWS Glue Studio を使用して、ETL ジョブを変更できます。これを行うには、ビジュアルエディタでノードを編集するか、デベロッパーモードでジョブスクリプトを編集します。ビジュアルエディタでノードを追加および削除して、より複雑な ETL ジョブを作成することもできます。

AWS Glue Studio でジョブを作成するための次のステップ

ジョブのノードを設定するには、ビジュアルジョブエディタを使用します。各ノードは、ソース位置からのデータの読み取り、データへの変換の適用などのアクションに対応しています。ジョブに追加する各ノードには、データの場所または変換に関する情報を指定するためのプロパティがあります。

ジョブを作成および管理するための次のステップは、以下のとおりです。