AWS Glue
開発者ガイド

AWS Glue とは

AWS Glue は、簡単でコスト効果の高い方法でデータの分類、消去、強化、およびさまざまなデータストア間を確実に移動することができる、完全マネージド型 ETL (抽出、変換、ロード) サービスです。AWS Glue は、AWS Glue データカタログ と呼ばれる中央メタデータリポジトリ、Python または Scala コードを自動的に生成する ETL エンジン、依存性の解決、ジョブのモニタリング、および再試行を処理する柔軟なスケジューラで構成されています。AWS Glue はサーバーレスであるため、セットアップまたは管理するインフラストラクチャはありません。

AWS Glue コンソールを使用してデータを検出、変換し、検索とクエリに使用できるようにする方法について説明します。コンソールは、基盤となるサービスを呼び出し、データ変換に必要な作業を調整します。AWS Glue API オペレーション を使用して AWS Glue サービスとインターフェイスをとることもできます。使い慣れた開発環境を使用して Python または Scala Apache Spark ETL コードを編集、デバッグ、およびテストします。

料金情報については、「AWS Glue の料金表」を参照してください。

AWS Glue が適している用途

AWS Glue を使用してデータウェアハウスを構築し、データを整理、最適化、検証、フォーマットできます。 AWS クラウドのデータ を変換してデータストアへ移動できます。また、通常のレポートおよび分析のために、さまざまなソースからデータウェアハウスへデータをロードできます。データウェアハウスに保存することで、ビジネスのさまざまな部分の情報を統合し、意思決定のためにデータの共通ソースを提供します。

AWS Glue により、データウェアハウスの構築の際、多くのタスクが簡素化されます。

  • データストアに関するメタデータを検出および分類し、一元的なカタログに保存します。クリックストリームやプロセスログなどの半構造化データを処理できます。

  • スケジュールされたクローラプログラムからのテーブル定義で AWS Glue データカタログ が入力されます。クローラが分類子ロジックを呼び出して、データのスキーマ、形式、データ型を推論します。このメタデータはテーブルとして AWS Glue データカタログ に保存され、ETL ジョブの認証処理に使用されます。

  • ETL スクリプトを生成し、ソースからターゲットへデータを変換、フラット化、強化を行います。

  • スキーマの変更を検出し、設定に基づき調整します。

  • スケジュールやイベントに基づいて ETL ジョブをトリガーするジョブを自動的に開始してデータをデータウェアハウスに移動できます。トリガーを使用してジョブ間の依存関係を作成できます。

  • ランタイムメトリクスを収集し、データウェアハウスのアクティビティを監視します。

  • エラーと再試行を自動的に処理します。

  • ジョブを実行するために、必要に応じてリソースをスケーリングします。

AWS Glue を使用してサーバーレスクエリを Amazon S3 データレイクに対して実行できます。 AWS Glue で Amazon Simple Storage Service (Amazon S3) のデータを分類し、Amazon Athena および Amazon Redshift Spectrum でクエリに利用できます。クローラでは、メタデータは基盤となるデータと同期し続けます。Athena および Redshift Spectrum は、AWS Glue データカタログ を使用して Amazon S3 データレイクを直接クエリできます。AWS Glue では、複数のデータサイロにロードすることなく、1 つの統一されたインターフェイスを通じてデータにアクセスし分析できます。

AWS Glue でイベント駆動型の ETL パイプラインを作成できます。 AWS Glue ETL ジョブを AWS Lambda 関数から呼び出すことで、Amazon S3 で新しいデータが使用可能になるとすぐに ETL ジョブを実行できます。また、ETL ジョブの処理の一環として、このような新しいデータセットを AWS Glue データカタログ に登録することもできます。

AWS Glue を使用してデータアセットを理解できます。 さまざまな AWS サービスを使用してデータを保存でき、AWS Glue データカタログ を使用してデータの統一されたビューを維持できます。Data Catalog を表示して所有しているデータセットをすばやく検索および検出でき、関連するメタデータを 1 つの中央リポジトリに維持できます。また、Data Catalog は外部 Apache Hive メタストアのドロップインリプレースメントとしても機能します。

このページの内容: