AWS Glue コンソールのワークフローの概要 - AWS Glue

英語の翻訳が提供されている場合で、内容が矛盾する場合には、英語版がオリジナルとして取り扱われます。翻訳は機械翻訳により提供されています。

AWS Glue コンソールのワークフローの概要

AWS Glue では、AWS Glue データカタログ にメタデータを格納します。このメタデータを使用して、データソースを変換してデータウェアハウスやデータレイクをロードする ETL ジョブを調整します。以下の手順では、一般的なワークフローと、AWS Glue を使用して作業する際に行う選択肢のいくつかについて説明します。

注記

以下の手順に従うことも、手順 1 ~ 3 を自動的に実行するワークフローを作成することもできます。詳細については、「Performing Complex ETL Activities Using Workflows in AWS Glue」を参照してください。

  1. AWS Glue データカタログ にテーブル定義を入力します。

    永続データストアの場合は、コンソールでクローラを追加して AWS Glue データカタログ にデータを追加できます。[Add crawler (クローラを追加)] ウィザードは、テーブルのリストまたはクローラのリストから開始できます。クローラがアクセスするための 1 つ以上のデータストアを選択します。スケジュールを作成して、クローラの実行頻度を決定することもできます。データストリームの場合は、テーブル定義を手動で作成して、ストリームプロパティを定義できます。

    必要に応じて、データのスキーマを推測するカスタム分類子を提供できます。 grok パターンを使用してカスタム分類子を作成できます。ただし、AWS Glue には、カスタム分類子がデータを認識しない場合にクローラによって自動的に使用される組み込み分類子が用意されています。クローラを定義する時に、分類子を選択する必要はありません。AWS Glue の分類子の詳細については、「クローラに分類子を追加する」を参照してください。

    一部のタイプのデータストアをクロールするには、認証とロケーション情報を提供する接続が必要です。必要に応じて、AWS Glue コンソールでこの必要な情報を提供する接続を作成できます。

    クローラはデータストアを読み取り、データ定義と名前付きテーブルを AWS Glue データカタログ に作成します。これらのテーブルは、選択したデータベースに整理されます。手動で作成したテーブルを Data Catalog に入力することもできます。この方法では、スキーマおよびその他のメタデータを提供して、Data Catalog にテーブル定義を作成します。この方法は少し面倒でエラーが発生しやすいため、より良い方法として、クローラにテーブル定義を作成させることができます。

    AWS Glue データカタログ にテーブル定義を入力する方法の詳細については、「AWS Glue データカタログ でテーブルを定義する」を参照してください。

  2. ソースからターゲットへのデータの変換を記述するジョブを定義します。

    一般に、ジョブを作成するには、次の選択をする必要があります。

    • ジョブのソースとなるテーブルを AWS Glue データカタログ から選択します。ジョブでは、このテーブル定義を使ってデータソースにアクセスし、データの型式を解釈します。

    • ジョブのターゲットとなるテーブルまたは場所を AWS Glue データカタログ から選択します。ジョブはこの情報を使用して、データストアにアクセスします。

    • ソースをターゲットに変換する PySpark スクリプトを生成するように AWS Glue に指示します。AWS Glue は、ソーススキーマからターゲットスキーマ形式にデータを変換する組み込み変換を呼び出すコードを生成します。これらの変換は、データのコピー、列の名前の変更、データのフィルタリングなどの操作を実行し、必要に応じてデータを変換します。このスクリプトは、AWS Glue コンソールで変更できます。

    AWS Glue でジョブを定義する方法の詳細については、「AWS Glue でジョブを作成する」を参照してください。

  3. ジョブを実行してデータを変換します。

    オンデマンドでジョブを実行するか、次のいずれかのトリガータイプに基づいてジョブを開始することができます。

    • cron スケジュールに基づいたトリガー。

    • イベントベースのトリガー。たとえば、別のジョブが正常に完了すると、AWS Glue ジョブを開始できます。

    • オンデマンドでジョブを開始するトリガー。

    AWS Glue のトリガーの詳細については、「トリガーを使用したジョブとクローラの開始」を参照してください。

  4. スケジュールされたクローラとトリガーされたジョブをモニタリングします。

    AWS Glue コンソールを使用して以下を表示します。

    • ジョブの実行の詳細とエラー。

    • クローラは詳細とエラーを実行します。

    • AWS Glue アクティビティに関する通知

    AWS Glue でクローラとジョブをモニタリングする方法の詳細については、「AWS Glue の実行とモニタリング」を参照してください。