AWS Glue とは - AWS Glue

AWS Glue とは

AWS Glue は、データの分類、クリーニング、加工を優れたコスト効果で容易に行い、さまざまなデータストア間およびデータストリーム間でデータを確実に移動するための、完全マネージド型 ETL (Extract/Transform/Load、抽出/変換/ロード) サービスです。AWS Glue は、AWS Glue データカタログ と呼ばれる中央メタデータリポジトリ、Python または Scala コードを自動的に生成する ETL エンジン、依存性の解決、ジョブのモニタリング、および再試行を処理する柔軟なスケジューラで構成されています。AWS Glue はサーバーレスであるため、インフラストラクチャのセットアップや管理は不要です。

AWS Glue は、半構造化データを操作するように設計されています。動的フレームと呼ばれるコンポーネントが導入され、ETL スクリプトで使用できます。動的フレームとは、データを行と列に整理するために使用されるデータ抽象化であり、Apache Spark データフレームに似ています。ただし、各レコードが自己記述であるため、初期スキーマは必要ありません。動的フレームを使用すると、スキーマの柔軟性と動的フレーム用に特別に設計された一連の高度な変換が得られます。動的フレームと Spark データフレーム間で変換できるため、AWS Glue と Spark の両方の変換を活用して、必要な分析を行うことができます。

AWS Glue コンソールを使用してデータを検出、変換し、検索とクエリに使用できるようにすることができます。コンソールは、基盤となるサービスを呼び出し、データ変換に必要な作業を調整します。AWS Glue API オペレーション を使用して AWS Glue サービスとインターフェイスをとることもできます。使い慣れた開発環境を使用して Python または Scala Apache Spark ETL コードを編集、デバッグ、およびテストします。

料金情報については、「AWS Glue の料金表」を参照してください。

AWS Glue が適している用途

AWS Glue を使用してデータウェアハウスまたはデータレイクでのストレージ用にデータを整理、最適化、検証、フォーマットできます。 AWS クラウドのデータ を変換してデータストアへ移動できます。また、通常のレポートおよび分析のために、さまざまな静的データソースまたはストリーミングデータソースからデータウェアハウスまたはデータレイクにデータをロードすることもできます。データをデータウェアハウスまたはデータレイクに保存することで、ビジネスのさまざまな部分の情報を統合し、意思決定のためにデータの共通ソースを提供します。

AWS Glue により、データウェアハウスまたはデータレイクの構築の際、多くのタスクが簡素化されます。

  • データストアに関するメタデータを検出および分類し、一元的なカタログに保存します。クリックストリームやプロセスログなどの半構造化データを処理できます。

  • スケジュールされたクローラプログラムからのテーブル定義で AWS Glue データカタログ が入力されます。クローラが分類子ロジックを呼び出して、データのスキーマ、形式、データ型を推論します。このメタデータはテーブルとして AWS Glue データカタログ に保存され、ETL ジョブの認証処理に使用されます。

  • ETL スクリプトを生成し、ソースからターゲットへデータを変換、フラット化、強化を行います。

  • スキーマの変更を検出し、設定に基づき調整します。

  • スケジュールやイベントに基づいて ETL ジョブをトリガーするジョブを自動的に開始してデータをデータウェアハウスまたはデータレイクに移動できます。トリガーを使用してジョブ間の依存関係を作成できます。

  • ランタイムメトリクスを収集し、データウェアハウスまたはデータレイクのアクティビティを監視します。

  • エラーと再試行を自動的に処理します。

  • ジョブを実行するために、必要に応じてリソースをスケーリングします。

AWS Glue を使用してサーバーレスクエリを Amazon S3 データレイクに対して実行できます。 AWS Glue で Amazon Simple Storage Service (Amazon S3) のデータを分類し、Amazon Athena および Amazon Redshift Spectrum でクエリに利用できます。クローラでは、メタデータは基盤となるデータと同期し続けます。Athena および Redshift Spectrum は、AWS Glue データカタログ を使用して Amazon S3 データレイクを直接クエリできます。AWS Glue では、複数のデータサイロにロードすることなく、1 つの統一されたインターフェイスを通じてデータにアクセスし分析できます。

AWS Glue でイベント駆動型の ETL パイプラインを作成できます。 AWS Glue ETL ジョブを AWS Lambda 関数から呼び出すことで、Amazon S3 で新しいデータが使用可能になるとすぐに ETL ジョブを実行できます。また、ETL ジョブの処理の一環として、このような新しいデータセットを AWS Glue データカタログ に登録することもできます。

AWS Glue を使用してデータアセットを理解できます。 さまざまな AWS サービスを使用してデータを保存でき、AWS Glue データカタログ を使用してデータの統一されたビューを維持できます。Data Catalog を表示して所有しているデータセットをすばやく検索および検出でき、関連するメタデータを 1 つの中央リポジトリに維持できます。また、Data Catalog は外部 Apache Hive メタストアのドロップインリプレースメントとしても機能します。