AWS Glue データカタログについて - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue データカタログについて

AWS Glue データカタログには、AWS Glue での抽出、変換、およびロード (ETL) ジョブのソースおよびターゲットとして使用されるデータへの参照が含まれています。データウェアハウスやデータレイクを作成するには、このデータを分類する必要があります。AWS Glue データカタログは、データの場所、スキーマ、およびランタイムメトリクスへのインデックスです。データカタログ内の情報は、ETL ジョブの作成と監視に使用します。データカタログ内の情報はメタデータテーブルとして保存され、各テーブルが 1 つのデータストアを指定します。一般的には、クローラを実行してデータストア内のデータのインベントリを行いますが、データカタログにメタデータテーブルを追加する別の方法もあります。詳細については、「AWS Glue データカタログでのテーブルの定義」を参照してください。

次のワークフロー図は、AWS Glue クローラがデータストアや他の要素とやり取りしてデータカタログに入力する方法を示しています。


      AWS Glue クローラが 5 つの基本的なステップでデータカタログに入力する方法を示すワークフロー。

クローラが AWS Glue データカタログに入力する一般的なワークフローを以下に示します。

  1. クローラが選択した任意のカスタム分類子を実行し、データの形式とスキーマを推論します。カスタム分類子のコードを提供すると、指定した順序で実行されます。

    データの構造を正常に認識した最初のカスタム分類子がスキーマを作成するために使用されます。リスト内の下位のカスタム分類子はスキップされます。

  2. カスタム分類子と一致するデータのスキーマがない場合は、組み込み分類子がデータのスキーマを認識します。組み込み分類子の例に、JSON を認識する分類子があります。

  3. クローラがデータストアに接続します。一部のデータストアでは、クローラがアクセスするために接続プロパティを必要とします。

  4. データの推測されたスキーマが作成されます。

  5. クローラはデータカタログにメタデータを書き込みます。テーブル定義にはデータストア内のデータに関するメタデータが含まれています。テーブルは、データカタログでテーブルのコンテナとなるデータベースに書き込まれます。テーブルの属性には分類が含まれます。これは、テーブルのスキーマを推測した分類子により作成されるラベルです。