AWS Glue データカタログ の入力 - AWS Glue

AWS Glue データカタログ の入力

AWS Glue データカタログ には、AWS Glue での抽出、変換、およびロード (ETL) ジョブのソースおよびターゲットとして使用するデータへのリファレンスが含まれています。データウェアハウスやデータレイクを作成するには、このデータを分類する必要があります。AWS Glue データカタログ は、データの場所、スキーマ、およびランタイムメトリクスへのインデックスです。Data Catalog 内の情報を使用して、ETL ジョブを作成し、監視します。Data Catalog の情報はメタデータテーブルとして保存され、各テーブルが 1 つのデータストアを指定します。通常、クローラを実行してデータストア内のデータのインベントリを行いますが、Data Catalog にメタデータテーブルを追加する別の方法もあります。詳細については、「AWS Glue データカタログ でテーブルを定義する」を参照してください。

次のワークフロー図は、AWS Glue クローラがデータストアや他の要素とやり取りして Data Catalog に入力する方法を示しています。


      AWS Glue クローラが 5 つの基本的なステップで Data Catalog に入力する方法を示すワークフロー。

クローラが AWS Glue データカタログ に入力する一般的なワークフローを以下に示します。

  1. クローラが選択した任意のカスタム分類子を実行し、データの形式とスキーマを推論します。カスタム分類子のコードを提供すると、指定した順序で実行されます。

    データの構造を正常に認識した最初のカスタム分類子がスキーマを作成するために使用されます。リスト内の下位のカスタム分類子はスキップされます。カスタム分類子と一致するデータのスキーマがない場合は、組み込み分類子がデータのスキーマを認識します。組み込み分類子の例に、JSON を認識する分類子があります。

  2. クローラがデータストアに接続します。一部のデータストアでは、クローラがアクセスするために接続プロパティを必要とします。

  3. データの推測されたスキーマが作成されます。

  4. クローラは Data Catalog にメタデータを書き込みます。テーブル定義にはデータストア内のデータに関するメタデータが含まれています。テーブルは、Data Catalog でテーブルのコンテナとなるデータベースに書き込まれます。テーブルの属性には分類が含まれます。これは、テーブルのスキーマを推測した分類子により作成されるラベルです。