AWS Glue とは - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue とは

AWS Glue は、データの分類、クリーニング、加工を優れたコスト効果で容易に行い、さまざまなデータストア間およびデータストリーム間でデータを確実に移動するための、完全マネージド型 ETL (Extract/Transform/Load、抽出/変換/ロード) サービスです。AWS Glue は、AWS Glue Data Catalog と呼ばれる中央メタデータリポジトリ、Python または Scala コードを自動的に生成する ETL エンジン、依存性の解決、ジョブのモニタリング、および再試行を処理する柔軟なスケジューラで構成されています。AWS Glue はサーバーレスであるため、インフラストラクチャのセットアップや管理は不要です。

AWS Glue は、半構造化データを操作するように設計されています。動的フレームと呼ばれるコンポーネントが導入され、ETL スクリプトで使用できます。動的フレームとは、データを行と列に整理するために使用されるデータ抽象化であり、Apache Spark データフレームに似ています。ただし、各レコードが自己記述であるため、初期スキーマは必要ありません。動的フレームを使用すると、スキーマの柔軟性と動的フレーム用に特別に設計された一連の高度な変換が得られます。動的フレームと Spark データフレーム間で変換できるため、AWS Glue と Spark の両方の変換を活用して、必要な分析を行うことができます。

AWS Glue コンソールを使用してデータを検出、変換し、検索とクエリに使用できるようにすることができます。コンソールは、基盤となるサービスを呼び出し、データ変換に必要な作業を調整します。 AWS Glue API オペレーション を使用して AWS Glue サービスとインターフェイスをとることもできます。使い慣れた開発環境を使用して Python または Scala Apache Spark ETL コードを編集、デバッグ、およびテストします。

料金については、「AWS Glue の料金」を参照してください。

AWS Glue が適している用途

次を使用できます。AWS Glueを使用して、データウェアハウスまたはデータレイクでのストレージ用にデータを整理、検証、フォーマットできます。 変換し AWS クラウド データをデータストアへ移動できます。また、通常のレポートおよび分析のために、さまざまな静的データソースまたはストリーミングデータソースからデータウェアハウスまたはデータレイクにデータをロードすることもできます。データをデータウェアハウスまたはデータレイクに保存することで、ビジネスのさまざまな部分の情報を統合し、意思決定のためにデータの共通ソースを提供します。

AWS Glue により、データウェアハウスまたはデータレイクの構築の際、多くのタスクが簡素化されます。

  • データストアに関するメタデータを検出および分類し、一元的なカタログに保存します。クリックストリームやプロセスログなどの半構造化データを処理できます。

  • スケジュールされたクローラプログラムからのテーブル定義で AWS Glue Data Catalog が入力されます。クローラが分類子ロジックを呼び出して、データのスキーマ、形式、データ型を推論します。このメタデータはテーブルとして AWS Glue Data Catalog に保存され、ETL ジョブの認証処理に使用されます。

  • ETL スクリプトを生成し、ソースからターゲットへデータを変換、フラット化、強化を行います。

  • スキーマの変更を検出し、設定に基づき調整します。

  • スケジュールやイベントに基づいて ETL ジョブをトリガーする ジョブを自動的に開始してデータをデータウェアハウスまたはデータレイクに移動できます。トリガーを使用してジョブ間の依存関係を作成できます。

  • ランタイムメトリクスを収集し、データウェアハウスまたはデータレイクのアクティビティを監視します。

  • エラーと再試行を自動的に処理します。

  • ジョブを実行するために、必要に応じてリソースをスケーリングします。

次を使用できます。AWS Glueサーバーレスクエリを Amazon S3 データレイクに対して実行できます。 AWS Glueでは Amazon Simple Storage Service (Amazon S3) のデータをカタログ化でき、Amazon Athena と Amazon Redshift Spectrum でのクエリに使用できます。クローラでは、メタデータは基盤となるデータと同期し続けます。Athena と Redshift スペクトラムは、AWS Glue Data Catalog。AWS Glue では、複数のデータサイロにロードすることなく、1 つの統一されたインターフェイスを通じてデータにアクセスし分析できます。

イベント駆動型の ETL パイプラインはAWS Glue。 ETL ジョブを実行するには、Amazon S3 で新しいデータが使用可能になるとすぐにAWS Glueによる ETL ジョブAWS Lambdafunction. また、ETL ジョブの処理の一環として、このような新しいデータセットを AWS Glue Data Catalog に登録することもできます。

次を使用できます。AWS Glueを使用してデータアセットを理解できます。 あなたは、さまざまな使用してデータを保存することができますAWSを使用してデータの統一されたビューを維持しAWS Glue Data Catalog。データカタログを表示して所有しているデータセットをすばやく検索および検出でき、関連するメタデータを 1 つの中央リポジトリに維持できます。また、データカタログは、外部 Apache Hive メタストアのドロップインリプレースメントとしても機能します。