ビジュアル ETL と AWS Glue Studio

AWS Glue Studio ではシンプルなビジュアルインターフェイスを使用して、ETL ジョブを作成できます。新しいジョブは、[Jobs] (ジョブ) ページを使用して作成します。また、スクリプトエディタを使用して、AWS Glue Studio ETL ジョブスクリプト内のコードを直接操作することも可能です。

AWS Glue Studio または AWS Glue で作成したすべてのジョブは、[Jobs] (ジョブ) ページで確認することができます。このページでは、ジョブを表示、管理、および実行できます。

AWS Glue Studio で ETL ジョブを作成する方法の別の例については、ブログチュートリアルも参照してください。

AWS Glue Studio でのジョブの開始

AWS Glue では、ビジュアルインターフェイスやインタラクティブなコードの Notebook を通じて、またはスクリプトエディタを使用してジョブを作成できます。オプションのいずれかをクリックしてジョブを開始することも、サンプルジョブに基づいて新しいジョブを作成することもできます。

サンプルジョブでは、選択したツールでジョブが作成されます。例えば、サンプルジョブを使用すると、CSV ファイルをカタログテーブルに結合するビジュアル ETL ジョブを作成したり、Pandas を操作するときに AWS Glue for Ray または AWS Glue for Spark を使用してインタラクティブなコードの Notebook でジョブを作成したり、SparkSQL を使用してインタラクティブなコードの Notebook でジョブを作成したりできます。

でジョブをゼロAWS Glue Studioから作成する

にサインイン AWS Management Console し、https://console.aws.amazon.com/gluestudio/ で AWS Glue Studioコンソールを開きます。
ナビゲーションペインで、[ETL ジョブ] を選択します。
[ジョブを作成する] セクションで、ジョブの設定オプションを選択します。

ジョブを最初から作成するためのオプション:
- ビジュアル ETL – データフローに重点を置いたビジュアルインターフェイスでの作成
- インタラクティブなコードの Notebook を使用して作成 – Jupyter Notebook に基づいて、Notebook インターフェイスでジョブをインタラクティブに作成
  
  このオプションを選択した場合、Notebook 作成セッションを作成する前に、追加情報を指定する必要があります。この情報の指定方法の詳細については、AWS Glue Studio 中でのノートブックの使用開始を参照してください。
- スクリプトエディタを使用してコードを作成 – プログラミングと ETL スクリプトの記述をよく知っている場合には、このオプションを選択して、新しい Spark ETL ジョブを作成します。エンジン (Python シェル、Ray、Spark (Python)、または Spark (Scala)) を選択します。次に、[新規に開始] または [スクリプトをアップロード] を選択し、ローカルファイルから既存のスクリプトをアップロードします。スクリプトエディタの使用を選択した場合は、ビジュアルジョブエディタを使用してジョブを設計または編集することはできません。
  
  Spark ジョブは、AWS Glue によって管理される Apache Spark 環境で実行されます。デフォルトでは、新しいスクリプトは Python でコーディングします。新しい Scala スクリプトを作成する場合は、「AWS Glue Studio 中の Scala スクリプトの作成および編集」を参照してください。

サンプルジョブAWS Glue Studioからでジョブを作成する

サンプルジョブからジョブを作成できます。[サンプルジョブ] セクションでオプションを選択し、[サンプルジョブの作成] を選択します。いずれかのオプションから作成したサンプルジョブを手軽なテンプレートとして作業を開始できます。

にサインイン AWS Management Console し、https://console.aws.amazon.com/gluestudio/ で AWS Glue Studioコンソールを開きます。
ナビゲーションペインで、[ETL ジョブ] を選択します。
サンプルジョブからジョブを作成するためのオプションを次の中から選択します。
- 複数のソースを結合するビジュアル ETL ジョブ – 3 つの CSV ファイルを読み取り、データを結合し、データ型を変更し、データを Amazon S3 に書き込み、後でクエリできるようにカタログ化します。
- Python を並列化するための Ray Notebook – Python での並列処理用に Ray フレームワークを使用します。Amazon S3 から Parquet ファイルを読み取り、データを調べてフィルタリングし、CSV ファイルに保存します。
- Pandas を使用した Spark Notebook – 一般的な Pandas フレームワークと Spark を組み合わせてデータを探索および可視化します。
- SQL を使用した Spark Notebook – SQL を使用して Apache Spark をすぐに開始できます。AWS Glue データカタログからデータにアクセスし、使い慣れたコマンドを使用してデータを変換します。
[サンプルジョブの作成] を選択します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

AWS Glue Studio でビジュアル ETL ジョブを作成する

ジョブエディタの機能

ビジュアル ETL と AWS Glue Studio

AWS Glue Studio でのジョブの開始

でジョブをゼロAWS Glue Studioから作成する

サンプルジョブAWS Glue Studioから でジョブを作成する

サンプルジョブAWS Glue Studioからでジョブを作成する