AWS Glue Data Catalog の入力
AWS Glue Data Catalog には、AWS Glue での抽出、変換、ロード (ETL) ジョブのソースおよびターゲットとして使用するデータへのリファレンスが含まれています。データウェアハウスやデータレイクを作成するには、このデータを分類する必要があります。AWS Glue Data Catalog は、データの場所、スキーマ、およびランタイムメトリクスへのインデックスです。データカタログ内の情報は、ETL ジョブの作成と監視に使用します。Data Catalog の情報はメタデータテーブルとして保存され、各テーブルが 1 つのデータストアを指定します。一般的には、クローラを実行してデータストア内のデータのインベントリを行いますが、データカタログにメタデータテーブルを追加する別の方法もあります。詳細については、「AWS Glue Data Catalog でテーブルを定義する」を参照してください。
次のワークフロー図は、AWS Glue クローラがデータストアや他の要素とやり取りして Data Catalog に入力する方法を示しています。

クローラが AWS Glue Data Catalog に入力する一般的なワークフローを以下に示します。
-
クローラが選択した任意のカスタム分類子を実行し、データの形式とスキーマを推論します。カスタム分類子のコードを提供すると、指定した順序で実行されます。
データの構造を正常に認識した最初のカスタム分類子がスキーマを作成するために使用されます。リスト内の下位のカスタム分類子はスキップされます。
-
カスタム分類子と一致するデータのスキーマがない場合は、組み込み分類子がデータのスキーマを認識します。組み込み分類子の例に、JSON を認識する分類子があります。
-
クローラがデータストアに接続します。一部のデータストアでは、クローラがアクセスするために接続プロパティを必要とします。
-
データの推測されたスキーマが作成されます。
-
クローラは Data Catalog にメタデータを書き込みます。テーブル定義にはデータストア内のデータに関するメタデータが含まれています。テーブルは、Data Catalog でテーブルのコンテナとなるデータベースに書き込まれます。テーブルの属性には分類が含まれます。これは、テーブルのスキーマを推測した分類子により作成されるラベルです。
トピック