AWS Glue でのデータ検出とカタログ化

AWS Glue Data Catalog は、組織のデータセットに関するメタデータを保存する一元化されたリポジトリです。データソースの場所、スキーマ、およびランタイムメトリクスへのインデックスとして機能します。メタデータはメタデータテーブルに保存され、そこでは各テーブルが 1 つのデータストアを表します。

データソースを自動的にスキャンしてメタデータを抽出するクローラーを使用してデータカタログに入力できます。クローラーは、内部 (AWS ベース) および AWS 外部のデータソースに接続できます。

サポートされるデータソースについては、「クロールでサポートされているデータソース」を参照してください。

特定の要件に応じてテーブル構造、スキーマ、パーティション構造を定義することで、データカタログにテーブルを手動で作成することもできます。

メタデータテーブルの手動作成について詳しくは、「メタデータの手動定義」を参照してください。

データカタログ内の情報を使用して、ETL ジョブを作成し、モニタリングできます。データカタログは他の AWS 分析サービスと統合され、データソースの統合ビューを提供するため、データの管理と分析が容易になります。

Amazon Athena – SQL を使用して、Amazon S3 データのデータカタログにテーブルメタデータを保存し、クエリします。
AWS Lake Formation – きめ細かなデータアクセスポリシーを一元的に定義および管理し、データアクセスを監査します。
Amazon EMR – ビッグデータ処理のためにデータカタログで定義されたデータソースにアクセスします。
Amazon SageMaker AI – 機械学習モデルを迅速かつ確実に構築、トレーニング、デプロイします。

データカタログの主な機能

データカタログの主な側面を次に示します。

メタデータリポジトリ

データカタログは中央メタデータリポジトリとして機能し、データソースの場所、スキーマ、プロパティに関する情報を保存します。このメタデータは、従来のリレーショナルデータベースカタログと同様に、データベースとテーブルにまとめられます。

自動データ検出可能性

AWS Glue クローラーでは、新規または更新されたデータソースを自動的に検出してカタログ化できるため、手動メタデータ管理のオーバーヘッドが軽減され、データカタログが最新の状態を維持できます。データソースをカタログ化することで、データカタログでは、ユーザーやアプリケーションが組織内で利用可能なデータアセットを簡単に検出して理解できるようになり、データの再利用とコラボレーションが促進されます。

データカタログは、Amazon S3、Amazon RDS、Amazon Redshift、Apache Hive など、さまざまなデータソースをサポートしています。AWS Glue クローラーを使用して、これらのソースからメタデータを自動的に推測して保存できます。

詳細については、「クローラーを使用したデータカタログへの入力」を参照してください。

スキーマ管理

データカタログは、スキーマの推論、進化、バージョニングなど、データソースのスキーマを自動的にキャプチャして管理します。AWS Glue ETL ジョブを使用して、データカタログ内のスキーマとパーティションを更新できます。

テーブル最適化

Amazon Athena、Amazon EMR、AWS Glue ETL ジョブなどの AWS 分析サービスによる読み取りパフォーマンスを向上させるために、データカタログは、データカタログ内の Iceberg テーブル用にマネージド圧縮 (小さな Amazon S3 オブジェクトを圧縮してより大きなオブジェクトにコンパクト化するプロセス) を提供しています。AWS Glue コンソール、AWS Lake Formation コンソール、AWS CLI API、または AWS API を使用して、データカタログ内の個々の Iceberg テーブルの圧縮を有効または無効にすることができます。

詳細については、「Iceberg テーブルの最適化」を参照してください。

列統計

追加のデータパイプラインを設定することなく、Parquet、ORC、JSON、ION、CSV、XML などのデータ形式でデータカタログテーブルの列レベルの統計を計算できます。列統計は、列内の値に関するインサイトを得ることで、データプロファイルを理解するのに役立ちます。データカタログは、最小値、最大値、null 値の合計、個別の値の合計、値の平均長、true 値の合計出現数などの列の値の統計の生成をサポートしています。

詳細については、「列統計を使用したクエリのパフォーマンスの最適化」を参照してください。

データリネージュ

データカタログは、データに対して実行された変換とオペレーションの記録を維持し、データ系統情報を提供します。この系統情報は、データ出所の監査、コンプライアンス、理解に役立ちます。

AWS の他のサービスとの統合

データカタログは、AWS Lake Formation、Amazon Athena、Amazon Redshift Spectrum、Amazon EMR などの他の AWS サービスとシームレスに統合されます。この統合により、1 つの一貫性のあるメタデータレイヤーを使用して、さまざまなデータストアのデータをクエリおよび分析できます。

セキュリティとアクセスコントロール

AWS Glue は AWS Lake Formation と統合して、データカタログリソースのきめ細かなアクセスコントロールをサポートすることで、組織のポリシーと要件に基づいてアクセス許可を管理し、データアセットに安全にアクセスできます。AWS Glue は AWS Key Management Service (AWS KMS) と統合して、データカタログに保存されているメタデータを暗号化します。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

開発のためのネットワーク設定

データカタログの入力