AWS Glue Studio を使用した ETL ジョブの作成 - AWS Glue Studio

AWS Glue Studio を使用した ETL ジョブの作成

AWS Glue Studio ではシンプルなビジュアルインターフェイスを使用して、ETL ジョブを作成できます。新しいジョブは、[Jobs] (ジョブ) ページを使用して作成します。また、スクリプトエディタを使用して、AWS Glue Studio ETL ジョブスクリプト内のコードを直接操作することも可能です.

AWS Glue Studio または AWS Glue で作成したすべてのジョブは、[Jobs] (ジョブ) ページで確認することができます。このページにより、ジョブを表示および管理し、実行します。

ジョブの作成プロセスの開始

ジョブを作成およびカスタマイズするには、ビジュアルエディタを使用します。新しいジョブの作成は、空のキャンバスもしくはデータソースを使用して開始できます。または、変換によるか、データターゲットノードを使用する、あるいは ETL スクリプトを記述するオプションもあります。

AWS Glue Studio でジョブを作成する方法
  1. AWS Management Console にサインインして、AWS Glue Studio コンソール (https://console.aws.amazon.com/gluestudio/) を開きます。

  2. AWS Glue Studio のランディングページで、Create and manage jobs(ジョブの作成と管理) を選択するか、ナビゲーションペインで [Jobs](ジョブ) を選択します。

    [Jobs] ページが表示されます。

  3. [Create job] (ジョブの作成) セクションで、ジョブの設定オプションを選択します。

    • [Visual with a blank canvas](空白のキャンバスを持つビジュアル) - 空のキャンバスからジョブの作成を開始する

    • [Visual with a source and target] (ソースおよびターゲットを持つビジュアル) - ソースノードから始まるジョブ、またはソースノード、トランスフォームノード、ターゲットノードから始まるジョブを作成する場合

      次に、データソースのタイプを選択します。また、データターゲットの種類を選択するか、ターゲット ドロップダウンリストから [Choose later](後で選択) オプションを選択して、グラフ内のデータソースノードのみから作成を開始することも可能です。

    • [Spark script editor](Spark スクリプトエディタ) - ETL スクリプトのプログラミングと記述に精通している場合には、このオプションを選択して、新しい Spark ETL ジョブを作成することが可能です。また、Python または Scala のコードについては、スクリプトエディタウィンドウで記述するか、ローカルファイルから既存のスクリプトをアップロードするかを選択できます。スクリプトエディタの使用を選択した場合は、ビジュアルジョブエディタを使用してジョブを設計または編集することはできません。

      Spark ジョブは、AWS Glue によって管理される Apache Spark 環境で実行されます。デフォルトでは、新しいスクリプトは Python でコーディングします。新しい Scala スクリプトを作成する場合は、「AWS Glue Studio 中の Scala スクリプトの作成および編集」を参照してください。

    • Python シェルスクリプトエディタ — ETL スクリプトのプログラミングと記述に慣れている場合は、このオプションを選択して新しい Python シェルジョブを作成します。スクリプトエディタウィンドウでコードを記述するには、テンプレート (定型文) を使用するか、ローカルファイルから既存のスクリプトをアップロードするかのオプションが選択できます。スクリプトエディタの使用を選択した場合は、ビジュアルジョブエディタを使用してジョブを設計または編集することはできません。

      Python シェルジョブは Python スクリプトをシェルとして実行し、ジョブで選択した AWS Glue バージョンに応じた Python のバージョンをサポートします。このタイプのジョブでは、Apache Spark 環境を必要としないタスクをスケジュールして実行できます。

    • Jupyter Notebook — ETL スクリプトのプログラミングと記述に精通している方には、このオプションを選択して、Jupyter Jupyter ベースのノートブックインターフェイスを使用して新しい Python または Scala ジョブスクリプトを作成します。ノートブックにコードを書きます。ノートブックインターフェイスを使用してジョブを作成する場合は、ビジュアルジョブエディタを使用してジョブを設計または編集することはできません。

      コマンドラインインターフェイスを使用して、認可ジョブ用にノートブックを簡単に構成することもできます。

  4. [Create] (作成) を選択して、選択した編集インターフェイスでジョブを作成します。

    
            スクリーンショットに、AWS Glue Studio のジョブページを示します。[Create job] (ジョブの作成) セクションでは、「ソースとターゲットを含むビジュアル」オプションが選択されています。このセクションには、他のジョブ作成オプションとして、「空白のキャンバスのビジュアル」、「Spark スクリプトエディタ」、「Python Shell スクリプトエディタ」があります。[Create job] (ジョブの作成) オプションの下にある [Source] (ソース) ドロップダウンリストには、使用可能なさまざまな (AWS Glue Data Catalog、Amazon S3、Amazon Kinesis、Apache Kafka、Relational DB、Amazon Redshift、MySQL、PostgreSQL の他に、スクリーンショットに表示されていないものを含めた) データソースタイプが表示されます。[Source] (ソース) ドロップダウンリストの右側には [Target] (ターゲット) ドロップダウンリストがあり、「Amazon S3」と表示されています。[Create] (作成) ボタンは、画像の右上にオレンジ色で強調表示されます。
  5. Jupyter Notebook オプションを選択した場合、ジョブエディタインターフェイスの代わりに [Create job in Jupyter notebook] (Jupyter Notebook でジョブを作成する) というページが表示されます。ノートブックオーサリングセッションを作成する前に、追加情報を提供する必要があります。この情報の指定方法の詳細については、AWS Glue Studio 中でのノートブックの使用開始 を参照してください。

コネクタを使用するジョブを作成する

AWS Glue Studio にコネクタを追加し、そのコネクタとの接続を作成すると、データソースとの接続を使用するジョブを作成できるようになります。

詳細な手順については、「カスタムコネクタを使用したジョブのオーサリング」を参照してください。

AWS Glue Studio でジョブを作成するための次のステップ

ジョブのノードを設定するには、ビジュアルジョブエディタを使用します。各ノードは、ソース位置からのデータの読み取り、データへの変換の適用などのアクションに対応しています。ジョブに追加する各ノードには、データの場所または変換に関する情報を指定するためのプロパティがあります。

ジョブを作成および管理するための次のステップは、以下のとおりです。