AWS Glue とは何ですか? - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue とは何ですか?

AWS Glue は、簡単でコスト効果の高い方法でデータの分類、消去、強化、およびさまざまなデータストアおよびデータストリーム間を確実に移動することができる、完全マネージド型の ETL (抽出、変換、ロード) サービスです。AWS Glue は、AWS Glue データカタログと呼ばれる中央メタデータリポジトリ、Python または Scala コードを自動的に生成する ETL エンジン、依存性の解決、ジョブのモニタリング、および再試行を処理する柔軟なスケジューラで構成されています。AWS Glue はサーバーレスであるため、セットアップまたは管理するインフラストラクチャはありません。

AWS Glue は、半構造化データを操作するように設計されています。動的フレームと呼ばれるコンポーネントが導入され、ETL スクリプトで使用できます。動的フレームとは、データを行と列に整理するために使用されるデータ抽象化であり、Apache Spark データフレームに似ています。ただし、各レコードが自己記述であるため、初期スキーマは必要ありません。動的フレームを使用すると、スキーマの柔軟性と動的フレーム用に特別に設計された一連の高度な変換が得られます。動的フレームと Spark データフレーム間で変換できるため、AWS Glue と Spark の両方の変換を活用して、必要な分析を行うことができます。

AWS Glue コンソールを使用してデータを検出、変換し、検索とクエリに使用できるようにすることができます。コンソールは、基盤となるサービスを呼び出し、データ変換に必要な作業を調整します。AWS Glue API オペレーションを使用して、AWS Glue サービスとインターフェイスすることもできます。使い慣れた開発環境を使用して Python または Scala Apache Spark ETL コードを編集、デバッグ、およびテストします。

料金の詳細については、AWS Glue 料金表を参照してください。

AWS Glue が適している用途

AWS Glue を使用して、データウェアハウスまたはデータレイクのストレージ用にデータを整理、検証、フォーマットできます。 AWS クラウドのデータ を変換してデータストアへ移動できます。また、通常のレポートおよび分析のために、さまざまな静的データソースまたはストリーミングデータソースからデータウェアハウスまたはデータレイクにデータをロードすることもできます。データをデータウェアハウスまたはデータレイクに保存することで、ビジネスのさまざまな部分の情報を統合し、意思決定のためにデータの共通ソースを提供します。

AWS Glue では、データウェアハウスまたはデータレイクの構築の際、多くのタスクが簡素化されます。

  • データストアに関するメタデータを検出および分類し、一元的なカタログに保存します。クリックストリームやプロセスログなどの半構造化データを処理できます。

  • スケジュールされたクローラプログラムからのテーブル定義で AWS Glue データカタログが入力されます。クローラが分類子ロジックを呼び出して、データのスキーマ、形式、データ型を推論します。このメタデータはテーブルとして AWS Glue データカタログに保存され、ETL ジョブの認証処理に使用されます。

  • ETL スクリプトを生成し、ソースからターゲットへデータを変換、フラット化、強化を行います。

  • スキーマの変更を検出し、設定に基づき調整します。

  • スケジュールやイベントに基づいて ETL ジョブをトリガーする ジョブを自動的に開始してデータをデータウェアハウスまたはデータレイクに移動できます。トリガーを使用してジョブ間の依存関係を作成できます。

  • ランタイムメトリクスを収集し、データウェアハウスまたはデータレイクのアクティビティを監視します。

  • エラーと再試行を自動的に処理します。

  • ジョブを実行するために、必要に応じてリソースをスケーリングします。

Amazon S3 データレイクに対してサーバーレスクエリを実行する場合、AWS Glue を使用できます。 AWS Glue では、Amazon Simple Storage Service (Amazon S3) データをカタログ化できるため、Amazon Athena および Amazon Redshift Spectrum でのクエリに使用できるようになります。クローラでは、メタデータは基盤となるデータと同期し続けます。Athena と Redshift Spectrum は、AWS Glue データカタログを使用して Amazon S3 データレイクを直接クエリできます。AWS Glue では、複数のデータサイロにロードすることなく、1 つの統一されたインターフェイスを通じてデータにアクセスし分析できます。

AWS Glue を使用してイベント駆動型の ETL パイプラインを作成できます。 AWS Glue ETL ジョブを AWS Lambda 関数から呼び出すことで、Amazon S3 で新しいデータが使用可能になるとすぐに ETL ジョブを実行できます。また、ETL ジョブの一環として、このような新しいデータセットを AWS Glue データカタログに登録することもできます。

AWS Glue を使用してデータアセットを理解できます。 さまざまな AWS サービスを使用してデータを保存でき、AWS Glue データカタログを使用してデータの統一されたビューを維持できます。データカタログを表示して所有しているデータセットをすばやく検索および検出でき、関連するメタデータを 1 つの中央リポジトリに維持できます。また、データカタログは、外部 Apache Hive メタストアのドロップインリプレースメントとしても機能します。