のブループリントの概要AWS接着語 - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

のブループリントの概要AWS接着語

-AWSグルー設計図のグルー機能は、プレビューリリースのAWSGlue は変更される可能性があります。

AWSGlue・ブループリントは、作成および共有の方法を提供しますAWSGlue ワークフロー。同様のユースケースに使用できる複雑なETLプロセスがある場合、AWSユースケースごとにワークフローをGlue して、単一のブループリントを作成できます。

ブループリントでは、ワークフローに含めるジョブとクローラを指定し、ワークフローを作成するためにブループリントを実行するときにワークフローユーザーが提供するパラメータを指定します。パラメータを使用すると、1 つのブループリントで同様のさまざまなユースケースのワークフローを生成できます。ワークフローの詳細については、「」を参照してください。AWS Glue のワークフローの概要

設計図のユースケースの例を次に示します。

  • 既存のデータセットを分割する場合。設計図への入力パラメータは、Amazon Simple Storage Service (Amazon S3) のソースパスとターゲットのパス、およびパーティション列のリストです。

  • Amazon DynamoDB テーブルを、Amazon Redshift のような SQL データストアにスナップショットを作成する場合。ブループリントへの入力パラメータは、DynamoDB テーブル名とAWSGlue 接続。Amazon Redshift クラスターと宛先データベースを指定します。

  • 複数の Amazon S3 パスの CSV データを Parquet に変換する場合。あなたがしたいですAWS各パスに個別のクローラとジョブを含めるようにワークフローをGlue します。入力パラメーターは、AWSGlue データカタログと Amazon S3 パスのコンマ区切りリスト この場合、ワークフローが作成するクローラおよびジョブの数は可変であることに注意してください。

ブループリントコンポーネント

設計図は、以下のコンポーネントを含む ZIP アーカイブです。

  • Python レイアウトジェネレータスクリプト

    ワークフローを指定する関数が含まれていますレイアウト— ワークフロー用に作成するクローラとジョブ、ジョブとクローラのプロパティ、およびジョブとクローラの依存関係です。この関数はブループリントパラメータを受け取り、ワークフロー構造 (JSON オブジェクト) を返します。AWSGlue は、を使用してワークフローを生成します。Python スクリプトを使用してワークフローを生成するため、ユースケースに適した独自のロジックを追加できます。

  • 設定ファイル

    ワークフローレイアウトを生成する Python 関数の完全修飾名を指定します。また、スクリプトで使用されるすべてのブループリントパラメータの名前、データタイプ、およびその他のプロパティも指定します。

  • (オプション)ETL スクリプトおよびサポートファイル

    高度なユースケースとして、ジョブで使用する ETL スクリプトの場所をパラメータ化できます。ZIP アーカイブにジョブスクリプトファイルを含めることができ、スクリプトのコピー先となる Amazon S3 ロケーションのブループリントパラメータを指定できます。レイアウト・ジェネレータ・スクリプトは、ETL スクリプトを指定された場所にコピーし、その場所をジョブ・スクリプトの場所プロパティとして指定することができます。ライブラリやその他のサポートファイルをスクリプトで処理する場合は、ライブラリやその他のサポートファイルを含めることもできます。


   ブループリントのラベルが付いたボックスには、Python Script というラベルが付いたボックスと、Config File というラベルが付いたボックスが 2 つあります。

設計図の実行

ブループリントからワークフローを作成すると、AWSGlue はブループリントを実行します。ブループリントは、ワークフローとワークフローがカプセル化するジョブ、クローラ、トリガーを作成するための非同期プロセスを開始します。AWSGlue は、ブループリントの実行を使用して、ワークフローとそのコンポーネントの作成を調整します。作成プロセスのステータスを表示するには、ブループリントの実行ステータスを表示します。ブループリントの実行には、ブループリントパラメータに指定した値も格納されます。


   [ブループリント実行] というラベルの付いたボックスには、ワークフローとパラメータ値のラベルが付いたアイコンが表示されます。

ブループリントの実行を表示するには、[] ダイアログボックスを使用します。AWSGlue コンソールまたはAWS Command Line Interface(AWS CLI). ワークフローを表示またはトラブルシューティングするときは、いつでもブループリントの実行に戻り、ワークフローの作成に使用されたブループリントパラメータ値を表示できます。

設計図のライフサイクル

ブループリントは、開発、テスト、AWSGlue し、実行してワークフローを作成します。ブループリントのライフサイクルには、通常 3 つのペルソナが関与しています。

ペルソナ タスク
AWSGlue 開発者
  • ワークフローレイアウトスクリプトを書き込み、設定ファイルを作成します。

  • によって提供されるライブラリを使用して、ブループリントをローカルでテストします。AWSGlue サービス。

  • スクリプト、設定ファイル、およびサポートファイルの ZIP アーカイブを作成し、Amazon S3 内の場所にアーカイブを公開します。

  • バケットオブジェクトに対する読み取りアクセス許可を付与する Amazon S3 バケットにバケットポリシーをAWSGlue 管理者のAWSアカウント.

  • Amazon S3 の ZIP アーカイブに対する IAM 読み取りアクセス許可をAWSGlue 管理者。

AWSGlue 管理者
  • レジスタ設計図をAWSGlue。AWSGlue により、ZIP アーカイブのコピーが予約された Amazon S3 ロケーションに作成されます。

  • ブループリントに対する IAM アクセス許可をデータアナリストに付与します。

データアナリスト
  • ブループリントを実行してワークフローを作成し、ブループリントパラメータ値を提供します。ブループリントの実行ステータスをチェックして、ワークフローとワークフローコンポーネントが正常に生成されたことを確認します。

  • ワークフローを実行し、トラブルシューティングします。は、ワークフローを実行する前に、ワークフローのデザイングラフをAWSGlue コンソール。