とは AWS Glue - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

とは AWS Glue

AWS Glue は、分析を行うユーザーが複数のソースからのデータを簡単に検出、準備、移動、統合できるようにするサーバーレスのデータ統合サービスです。分析、機械学習、アプリケーション開発に使用できます。また、ジョブの作成、実行、ビジネスワークフローの実装のための生産性向上に役立つツールやデータ運用ツールも追加されています。

AWS Glue を使用すれば、70 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理できます。抽出、変換、ロード(ETL)パイプラインを視覚的に作成、実行、モニタリングして、データをデータレイクにロードできます。また、Amazon Athena、Amazon EMR、Amazon Redshift Spectrum を使用して、カタログ化されたデータをすぐに検索し、クエリできます。

AWS Glue は、主要なデータ統合機能を単一のサービスに統合します。これは、データ検出、最新の ETL、クリーニング、変換、一元化されたカタログ作成が含まれます。また、サーバーレスなので、管理するインフラストラクチャがありません。AWS Glue は、ETL、ELT、ストリーミングなどのすべてのワークロードを 1 つのサービスで柔軟にサポートすることで、さまざまなワークロードやユーザータイプのユーザーをサポートします。

また、AWS Glue アーキテクチャ全体でデータを簡単に統合できます。 AWS 分析サービスや Amazon S3 データレイクと統合されています。 AWS Glueには、デベロッパーからビジネスユーザーまで、すべてのユーザーが使いやすい統合インターフェイスとジョブ作成ツールがあり、さまざまな技術的スキルセットに合わせたソリューションが用意されています。

オンデマンドで拡張できる AWS Glue を使用すれば、データの価値を最大化する価値の高いアクティビティに集中できます。あらゆるデータサイズに合わせてスケーリングでき、すべてのデータ型とスキーマの差異をサポートします。俊敏性を高め、コストを最適化するために、 AWS Glueには、高可用性と pay-as-you-go 請求機能が組み込まれています。

料金については、AWS Glue の料金を参照してください。

AWS Glue Studio

AWS Glue Studio は、AWS Glueでのデータ統合ジョブの作成、実行、モニタリングを容易にするグラフィカルインターフェイスです。データ変換ワークフローを視覚的に作成し、AWS Glue の Apache Spark ベースのサーバーレス ETL エンジンでシームレスに実行することができます。

AWS Glue Studio を使用すると、データを収集、変換、クリーニングするジョブを作成および管理できます。AWS Glue Studio を使用して、ジョブスクリプトのトラブルシューティングや編集ができます。

AWS Glue の機能

AWS Glue の機能は、次の 3 つの主要なカテゴリに分類されます。

  • データの検出と整理

  • 分析用データの変換、準備、クリーニング

  • データパイプラインの構築とモニタリング

データの検出と整理

  • 複数のデータストア間での統合と検索 – 内のすべてのデータを にカタログ化して、複数のデータソースとシンク間で保存、インデックス作成、検索を行います AWS。

  • データを自動的に検出 – AWS Glue クローラーを使用して自動的にスキーマ情報を推測し、 AWS Glue Data Catalogのスキーマ情報に統合します。

  • スキーマとアクセス許可を管理 – データベースとテーブルへのアクセスを検証し、制御します。

  • さまざまなデータソースに接続する — オンプレミスと の両方で、AWS Glue接続を使用してデータレイクを構築することで AWS、複数のデータソースを活用します。

分析用データの変換、準備、クリーニング

  • インターフェイスを使用して drag-and-dropデータを視覚的に変換する – ジョブエディタで ETL drag-and-dropプロセスを定義し、データを抽出、変換、ロードするコードを自動的に生成します。

  • シンプルなジョブスケジューリングで複雑な ETL パイプラインを構築 – スケジュール、オンデマンド、またはイベントに基づいて AWS Glue ジョブを呼び出します。

  • 転送中のストリーミングデータのクリーニングと変換 – 継続的なデータ消費が可能になり、転送中のデータをクリーニングして変換します。これにより、ターゲットデータストアでの分析が数秒でできるようになります。

  • 組み込みの機械学習によるデータの重複排除とクリーニングFindMatches 機能を使用することで、機械学習の専門知識がなくても、分析用のデータをクリーニングして準備できます。この機能は、相互に不完全な一致であるレコードを重複排除して検索します。

  • 組み込みのジョブノートブック – AWS Glue ジョブノートブックは、AWS Glue での最小限のセットアップでサーバーレスノートブックを提供するため、すぐに使用を開始できます。

  • ETL コードの編集、デバッグ、テスト – AWS Glue インタラクティブセッションを使用することで、データをインタラクティブに探索して準備できます。任意の IDE またはノートブックを使用して、データをインタラクティブに探索、実験、処理できます。

  • 機密データの定義、検出、修正 – AWS Glue の機密データ検出により、データパイプラインとデータレイク内の機密データを定義、識別、処理できます。

データパイプラインの構築とモニタリング

  • ワークロードに基づいて自動的にスケーリング – ワークロードに基づいて、リソースを動的にスケールアップまたはスケールダウンできます。これにより、ワーカーは必要な場合にのみジョブに割り当てられます。

  • イベントベースのトリガーでジョブを自動化 – イベントベースのトリガーでクローラーまたは AWS Glue ジョブを開始し、依存するジョブとクローラーのチェーンを設計します。

  • ジョブの実行とモニタリング – 選択したエンジン (Spark または Ray) を使用して AWS Glue ジョブを実行します。また、自動モニタリングツール、AWS Glue ジョブ実行のインサイト、 AWS CloudTrailを使用してモニタリングします。Apache Spark UI を使用して、Spark を利用したジョブのモニタリングを改善します。

  • ETL と統合アクティビティのワークフローを定義 – ETLのワークフローと、複数のクローラー、ジョブ、トリガーの統合アクティビティを定義します。

におけるイノベーションについて学ぶ AWS Glue

における最新のイノベーションについて学び AWS Glue 、 AWS Glue を使用して組織全体でセルフサービスデータの準備を可能にする方法について説明します。

お客様が従来の設定 AWS Glue を超えてスケーリングする方法と、ジョブのモニタリングとパフォーマンス AWS Glue のために を設定する方法について説明します。

AWS Glue の開始方法

以下のセクションから開始することが推奨されます。

AWS Glue へのアクセス

次のインターフェイスを使用して、AWS Glue ジョブの作成、表示、管理ができます。

  • AWS Glue コンソール – AWS Glue ジョブを作成、表示、管理するためのウェブインターフェイスを提供します。コンソールにアクセスするには、AWS Glue を参照してください。

  • AWS Glue Studio – AWS Glue ジョブを視覚的に作成および編集するためのグラフィカルインターフェイスを提供します。詳細については、「AWS Glue Studio とは?」を参照してください。

  • AWS Glue リファレンスの AWS CLI セクション – で使用できる AWS CLI コマンドを提供しますAWS Glue。詳細については、「AWS Glue 向けのAWS CLI リファレンス」を参照してください。

  • AWS Glue API – デベロッパー向けの完全な API リファレンスを提供します。詳細については、「AWS Glue API」を参照してください。

AWS Glue のユーザーは、以下も使用します。

  • AWS Lake Formation – AWS Glue Data Catalog 内のリソースへの詳細に設定されたアクセスコントロールを行う認証レイヤーであるサービス。

  • AWS GlueAWS Glue DataBrew – コードを記述せずにデータをクリーニングおよび正規化するために使用できるビジュアルデータ準備ツール。