AWS Glue
開発者ガイド

AWS Glue の実行とモニタリング

ETL (抽出、変換、およびロード) ジョブの実行を自動化することができます。AWS Glue は、モニタリングできるクローラとジョブのメトリクスも提供します。必要なメタデータを使用して AWS Glue データカタログ を設定すると、AWS Glue は環境のヘルスチェックに関する統計を提供します。クローラとジョブの呼び出しを、cron に基づく時間ベースのスケジュールで自動化することができます。イベントベースのトリガーが発生したときにジョブをトリガーすることもできます。

AWS Glue の主な目的は、データをソースからターゲットに抽出して変換する簡単な方法を提供することです。この目的を達成するために、ETL ジョブは次の一般的な手順に従います (次の図を参照)。

  1. トリガーが発生してジョブの実行が開始されます。このイベントは、定期的なスケジュールで、または依存関係を満たすために設定できます。

  2. ジョブは、ソースからデータを抽出します。必要に応じて、接続プロパティを使用してソースにアクセスします。

  3. ジョブは、作成したスクリプトと引数の値を使用してデータを変換します。このスクリプトには、データを変換する Scala または PySpark の Python コードが含まれています。

  4. 変換されたデータは、データターゲットにロードされます。必要に応じて、接続プロパティを使用してターゲットにアクセスします。

  5. ジョブの実行に関する統計が収集され、Data Catalog に書き込まれます。

次の図は、これら 5 つのステップを含む ETL ワークフローを示しています。


      5 つの基本ステップで AWS Glue の抽出、変換、およびロードを示すデータフロー。

自動モニタリングツール

モニタリングは、AWS Glue およびその他の AWS ソリューションの信頼性、可用性、およびパフォーマンスを維持する上で重要な部分です。AWS には、AWS Glue を監視したり、問題が発生したときに報告したり、必要に応じて自動的にアクションを実行するために使用する監視ツールが用意されています。

以下の自動化されたモニタリングツールを使用して、AWS Glue を監視し、問題が発生したときにレポートできます。

  • Amazon CloudWatch Events は、AWS リソースの変更をシステムイベントとしてほぼリアルタイムのストリームで示します。CloudWatch イベント は、自動イベント駆動型コンピューティングを有効にします。特定のイベントを監視し、これらのイベントが発生したときに他の AWS サービスで自動アクションをトリガーするルールを記述できます。詳細については、『Amazon CloudWatch Events ユーザーガイド』を参照してください。

  • Amazon CloudWatch Logs を使用して、Amazon EC2 インスタンス、AWS CloudTrail、その他のソースのログファイルを監視、保存し、それらのファイルにアクセスできます。CloudWatch Logs は、ログファイル内の情報を監視し、特定のしきい値が満たされたときに通知します。また、耐久性の高いストレージにログデータをアーカイブすることもできます。詳細については、『Amazon CloudWatch Logs User Guide』を参照してください。

  • AWS CloudTrail は、AWS アカウントにより、またはそのアカウントに代わって行われた、API 呼び出しおよび関連イベントを取得し、指定した Amazon S3 バケットにログファイルを配信します。AWS を呼び出すユーザーとアカウント、呼び出しの送信元 IP アドレス、および呼び出しが発生した時刻を特定できます。詳細については、『AWS CloudTrail User Guide』を参照してください。

このページの内容: