重要な特徴とコンセプト - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

重要な特徴とコンセプト

ログ記録とモニタリング

AWS Glue には、ログ記録とモニタリングのオプションがいくつかあります。デフォルトでは、 は Amazon CloudWatch のロググループにaws-glueログ AWS Glue を送信します。これらのログには、開始時刻や終了時刻、構成設定、発生した可能性のあるエラーや警告などの情報が含まれます。

さらに、 AWS Glue Spark ETL ジョブには以下のオプションがあり、高度なモニタリングを有効にする必要があります。

  • ジョブメトリクスは、ジョブ固有のメトリクスを 30 秒ごとに CloudWatch AWS Glue の名前空間に報告します。処理されたレコード、入出力データの合計サイズ、ランタイムなど、これらのジョブ固有のメトリクスは、ジョブのパフォーマンスに関する洞察を提供します。ボトルネックや構成を最適化する機会を特定するのに役立ちます。

  • 継続ロギングは、リアルタイムの Apache Spark ジョブのログを CloudWatch の /aws-glue/jobs/logs-v2 ロググループにストリーミングします。リアルタイムログを使用すると、実行中の AWS Glue ジョブを動的にモニタリングできます。

  • Spark UI には、各ステージのイベントタイムライン、有向非循環グラフ、ジョブ環境変数など、Spark ジョブに関する情報を表示するための Spark 履歴サーバーの Web インターフェイスが用意されています。永続的な Spark UI イベントログは Amazon S3 に保存され、リアルタイムで使用することも、ジョブの完了後に使用することもできます。

  • Job Run Insightsは、一般的な Spark の例外を監視し、根本原因分析を行い、問題を解決するための推奨アクションを提供することで、ジョブのデバッグと最適化を簡素化します。インサイトは CloudWatch に保存されます。

Automation

AWS Glue には、ETL ジョブを自動化する 2 つの主な方法として、トリガーとワークフローがあります。

AWS Glue トリガー

起動すると、 AWS Glue トリガーは指定されたジョブとクローラを開始します。トリガーは、オンデマンドで、定義済みのスケジュールに基づいて、または特定のイベントに基づいて起動することができます。トリガーを使って、依存するジョブとクローラーの連鎖をデザインすることができます。詳細については、AWS Glue トリガーを参照してください。 

AWS Glue ワークフロー

より複雑なワークロードでは、 AWS Glue ワークフローを使用して有向非巡回グラフを作成し、個別の AWS Glue エンティティ (トリガー、クローラ、ジョブ) 間に依存関係を構築できます。ワークフローには、パラメータの共有、進行状況のモニタリング、関連するエンティティ間の問題のトラブルシューティングを行うことができる統合インターフェイスもあります。

AWS Glue ワークフロー内で多くの関連エンティティを設定すると、ますます複雑になる可能性があります。開発者は、データサイエンティストやビジネスアナリストと複雑なデータパイプラインを共有するためのAWS Glue ブループリントを作成することができます。これらのテンプレートを使用すると、 AWS Glue ワークフローを一貫して繰り返し作成し、技術的な詳細を抽象化できます。

AWS Glue ブループリントとワークフローの詳細については、「 でブループリントとワークフローを使用して複雑な ETL アクティビティを実行する AWS Glue」を参照してください。

他の AWS サービスとの AWS Glue ジョブのオーケストレーション

その他のオートメーションオプションについては、 は 、 AWS Lambda、 AWS Step Functions Amazon Managed Workflows for Apache Airflow (Amazon MWAA) などの他の AWS サービスと AWS Glue 統合されています。

AWS Glue ETL ジョブのさまざまなオーケストレーション方法を比較するには、「運用上優れたデータパイプラインの構築」を参照してください。

ジョブのブックマーク

のジョブブックマーク AWS Glue は、ETL ジョブの進行状況を追跡するために使用されます。これにより、後続のジョブ実行でデータを再処理する必要がなくなります。ジョブのブックマークが有効になっている場合、 は処理済みのデータの記録 AWS Glue を保持します。その後、実行するたびに、データソースの新しいデータのみが処理されます。詳細については、「ジョブブックマークを使用して処理されたデータの追跡」を参照してください。