ETL プロセスをに変換するAWS Glue - AWS Schema Conversion Tool

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ETL プロセスをに変換するAWS Glue

スキーマとデータの移行に加えて、AWS Schema Conversion Tool(AWS SCT) では、抽出、変換、およびロード (ETL) プロセスを移行することもできます。この移行タイプには、ソースデータウェアハウス内や、個別に実行される外部スクリプト内にある、ETL 関連のビジネスロジックの変換も含まれます。移行後、ETL プロセスは AWS Glue で実行されます。ETL から AWS Glue への移行は、データ定義言語 (DDL) ステートメントおよびデータの変換とは別のプロジェクトとして実行します。


			データベースと ETL の変換を示した図。

現在、Oracle ETL、Microsoft SSIS、および Teradata BTEQ のみがAWS Glueがサポートされています。

Prerequisites

開始する前に、以下を実行します:

  • AWS に移行する予定のソースデータベースをすべて移行します。

  • ターゲットデータウェアハウスを AWS に移行します。

  • ETL プロセスに関わるすべてのコードのリストを収集します。

  • 各データベースに必要なすべての接続情報のリストを収集します。

AWS Glue データカタログについて

変換プロセスの一環として、AWS Glue にはソースデータベースとターゲットデータベースに関する情報が読み込まれます。この情報は、次のような構造で各種のカテゴリに分類されます。Tree. この構造には、以下のものが含まれています。

  • 接続— 接続パラメータ

  • クローラ— クローラのリスト。スキーマごとに 1 つのクローラが割り当てられます。

  • データベース— テーブルを保持するコンテナ。

  • テーブル— テーブル内のデータを表すメタデータ定義

  • ETL ジョブ— ETL 作業を実行するビジネスロジック

  • トリガー— ETL ジョブがで実行されると、制御するロジック。AWS Glue(オンデマンド、ジョブイベント)

AWS Glue データカタログは、データの場所、スキーマ、およびランタイムメトリクスへのインデックスです。AWS Glue および AWS SCT を使用する場合、 AWS Glue データカタログには AWS Glue の ETL ジョブのソースおよびターゲットとして使用されるデータへのリファレンスが含まれます。データウェアハウスを作成するには、このデータを分類します。

データカタログ内の情報は、ETL ジョブの作成と監視に使用します。一般的には、クローラを実行してデータストア内のデータのインベントリを行いますが、データカタログにメタデータテーブルを追加する別の方法もあります。

データカタログでテーブルを定義したら、データベースに追加します。データベースは AWS Glue でテーブルを整理するために使用されます。

を使用した変換の制限AWS SCTをAWS Glue

AWS Glue では、AWS SCT を使用して変換する場合に以下の制限が適用されます。

リソース デフォルトの制限
アカウントあたりのデータベース数 10,000
データベースあたりのテーブル数 100,000
テーブルあたりのパーティションの数 1,000,000
テーブルあたりのテーブルバージョンの数 100,000
アカウントあたりのデータベース数 1,000,000
アカウントあたりのパーティションの数 10,000,000
アカウントあたりのテーブルバージョンの数 1,000,000
アカウントあたりの接続数 1,000
アカウントあたりのクローラ数 25
アカウントあたりのジョブの数 25
アカウントあたりのトリガー数 25
アカウントあたりの同時ジョブの実行数 30
ジョブあたりの同時ジョブの実行数 3
トリガーごとのジョブ数 10
アカウントごとの開発エンドポイントの数 5
一度に開発エンドポイントによって使用される最大データ処理単位 (DPU) 数 5
一度にロールによって使用される最大 DPU 数 100
データベース名の長さ

無制限

Apache Hive など、その他のメタデータストアとの互換性を考慮して、名前は小文字に変換されます。

注記

Athena からデータベースにアクセスする場合は、英数字とアンダースコア文字のみを使用して名前を指定してください。

接続名の長さ 無制限
クローラ名の長さ 無制限