AWS Glue とは - AWS Glue

AWS Glue とは

AWS Glue は、データの分類、クリーニング、加工を優れたコスト効果で容易に行い、さまざまなデータストア間およびデータストリーム間でデータを確実に移動するための、完全マネージド型 ETL (Extract/Transform/Load、抽出/変換/ロード) サービスです。AWS Glue は、AWS Glue Data Catalog と呼ばれる中央メタデータリポジトリ、Python または Scala コードを自動的に生成する ETL エンジン、依存性の解決、ジョブのモニタリング、および再試行を処理する柔軟なスケジューラで構成されています。AWS Glue はサーバーレスであるため、インフラストラクチャのセットアップや管理は不要です。

AWS Glue は、半構造化データを操作するように設計されています。動的フレームと呼ばれるコンポーネントが導入され、ETL スクリプトで使用できます。動的フレームとは、データを行と列に整理するために使用されるデータ抽象化であり、Apache Spark データフレームに似ています。ただし、各レコードが自己記述であるため、初期スキーマは必要ありません。動的フレームを使用すると、スキーマの柔軟性と動的フレーム用に特別に設計された一連の高度な変換が得られます。動的フレームと Spark データフレーム間で変換できるため、AWS Glue と Spark の両方の変換を活用して、必要な分析を行うことができます。

AWS Glue コンソールを使用してデータを検出、変換し、検索とクエリに使用できるようにすることができます。コンソールは、基盤となるサービスを呼び出し、データ変換に必要な作業を調整します。AWS Glue API オペレーション を使用して AWS Glue サービスとインターフェイスをとることもできます。使い慣れた開発環境を使用して Python または Scala Apache Spark ETL コードを編集、デバッグ、およびテストします。

料金については、「AWS Glue の料金」を参照してください。

AWS Glue が適している用途

AWS Glue を使用すると、データウェアハウスまたはデータレイクでのストレージ用に、データを整理、最適化、検証、およびフォーマットできます。 AWS クラウド のデータを変換して、データストアへ移動できます。また、通常のレポートおよび分析のために、さまざまな静的データソースまたはストリーミングデータソースからデータウェアハウスまたはデータレイクにデータをロードすることもできます。データをデータウェアハウスまたはデータレイクに保存することで、ビジネスのさまざまな部分の情報を統合し、意思決定のためにデータの共通ソースを提供します。

AWS Glue により、データウェアハウスまたはデータレイクの構築の際、多くのタスクが簡素化されます。

  • データストアに関するメタデータを検出および分類し、一元的なカタログに保存します。クリックストリームやプロセスログなどの半構造化データを処理できます。

  • スケジュールされたクローラプログラムからのテーブル定義で AWS Glue Data Catalog が入力されます。クローラが分類子ロジックを呼び出して、データのスキーマ、形式、データ型を推論します。このメタデータはテーブルとして AWS Glue Data Catalog に保存され、ETL ジョブの認証処理に使用されます。

  • ETL スクリプトを生成し、ソースからターゲットへデータを変換、フラット化、強化を行います。

  • スキーマの変更を検出し、設定に基づき調整します。

  • スケジュールやイベントに基づいて ETL ジョブをトリガーする ジョブを自動的に開始してデータをデータウェアハウスまたはデータレイクに移動できます。トリガーを使用してジョブ間の依存関係を作成できます。

  • ランタイムメトリクスを収集し、データウェアハウスまたはデータレイクのアクティビティを監視します。

  • エラーと再試行を自動的に処理します。

  • ジョブを実行するために、必要に応じてリソースをスケーリングします。

サーバーレスなクエリを Amazon S3 データレイクに対して実行する際は、AWS Glue を使用できます。 AWS Glue は Amazon Simple Storage Service (Amazon S3) データをカタログ化し、Amazon Athena および Amazon Redshift Spectrum によるクエリを可能にします。クローラでは、メタデータと基盤となるデータの間の同期が維持されます。Athena と Redshift Spectrum からは、AWS Glue Data Catalog を使用して Amazon S3 データレイクを直接クエリできます。。AWS Glue では、複数のデータサイロにロードすることなく、1 つの統一されたインターフェイスを通じてデータにアクセスし分析できます。

でイベント駆動型の ETL パイプラインを作成できます。AWS Glue AWS Glue ETL ジョブを AWS Lambda 関数から呼び出すことで、Amazon S3 で新しいデータが使用可能になるとすぐに ETL ジョブを実行できます。また、ETL ジョブの処理の一環として、このような新しいデータセットを AWS Glue Data Catalog に登録することもできます。

AWS Glue は、データアセットを把握するために使用できます。 さまざまな AWS のサービスを使用してデータを保存でき、AWS Glue Data Catalog を使用してデータの統一されたビューを維持できます。所有しているデータセットをすばやく検索および検出するためには、Data Catalog を表示します。関連するメタデータは一元的なリポジトリに維持できます。また、Data Catalog は外部 Apache Hive メタストアの簡単な代替策としても機能します。