AWS Data Exchange から Amazon S3 へのデータ取り込みを自動化する - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Data Exchange から Amazon S3 へのデータ取り込みを自動化する

作成者: Adnan Alvee (AWS) と Manikanta Gona (AWS)

テクノロジー: 分析 DataLakes

環境:本稼働

AWS サービス: Amazon S3、Amazon CloudWatch、AWSLambda、Amazon SNS

[概要]

このパターンは、AWSData Exchange から Amazon Simple Storage Service (Amazon S3) のデータレイクにデータを自動的に取り込むことができるAWS CloudFormation テンプレートを提供します。 

AWS Data Exchange は、AWSクラウド内のファイルベースのデータセットを安全に交換できるサービスです。AWS Data Exchange データセットはサブスクリプションベースです。サブスクライバーは、プロバイダーが新しいデータをパブリッシュしたときに、データセットの改訂版にアクセスすることもできます。 

AWS CloudFormation テンプレートは Amazon CloudWatch Events イベントと AWS Lambda 関数を作成します。このイベントは、お客様がサブスクライブしているデータセットの更新を監視します。更新がある場合、 は Lambda 関数 CloudWatch を開始し、指定した S3 バケットにデータをコピーします。データが正常にコピーされると、Lambda は Amazon Simple Notification Service (Amazon SNS) 通知を送信します。

前提条件と制限

前提条件

  • アクティブなAWSアカウント

  • AWS Data Exchange のデータセットへのサブスクリプション

機能制限

  • AWS CloudFormation テンプレートは、AWSData Exchange でサブスクライブされたデータセットごとに個別にデプロイする必要があります。

アーキテクチャ

ターゲットテクノロジースタック

  • AWS Lambda

  • Amazon S3

  • AWS Data Exchange

  • Amazon CloudWatch

  • Amazon SNS

ターゲット アーキテクチャ

CloudWatch は Lambda 関数を開始して S3 バケットにデータをコピーし、Amazon SNS通知を送信します。

自動化とスケール

AWS CloudFormation テンプレートは、データレイクに取り込むデータセットに複数回使用できます。

ツール

  • AWS Data Exchange – AWSお客様がAWSクラウドでファイルベースのデータセットを安全に交換できるようにするサービス。サブスクライバーは、認定されたデータプロバイダーからの何千もの製品を検索してサブスクライブすることができます。その後、データセットをすばやくダウンロードするかAmazon S3 にコピーして、さまざまなAWS分析および機械学習サービスで使用できます。AWS アカウントを持つユーザーは誰でも AWS Data Exchange サブスクライバーになることができます。

  • AWS Lambda – サーバーのプロビジョニングや管理を行わずにコードを実行できるようにするコンピューティングサービス。AWS Lambda は、必要な場合にのみコードを実行し、1 日あたりのリクエスト数件から 1 秒あたり数千件まで自動的にスケーリングします。使用したコンピューティング時間に対してのみお支払いいただきます。コードが実行中でなければ料金はかかりません。AWS Lambda を使用すると、ほぼすべてのタイプのアプリケーションまたはバックエンドサービスのコードを、管理なしで実行できます。AWS Lambda は、高可用性コンピューティングインフラストラクチャでコードを実行し、サーバーとオペレーティングシステムのメンテナンス、キャパシティのプロビジョニングと自動スケーリング、コードのモニタリング、ログ記録など、すべてのコンピューティングリソースを管理します。

  • Amazon S3 – インターネット用のストレージサービスす。Simple Storage Service (Amazon S3) を使用すると、いつでもウェブ上の任意の場所から任意の量のデータを保存および取得できます。

  • Amazon CloudWatch Events – AWSリソースの変更を記述するシステムイベントのほぼリアルタイムのストリームを提供します。すばやく設定できるシンプルなルールを使用すると、イベントを照合して、1 つ以上のターゲット関数またはストリームにルーティングできます。 CloudWatch イベントは、運用上の変更が発生すると認識されます。オペレーションの変更に応答し、必要に応じて、応答メッセージを環境に送り、機能をアクティブ化し、変更を行い、状態情報を収集することによって、修正アクションを実行します。 CloudWatch イベントを使用して、cron 式またはレート式を使用して、特定の時間に自己開始する自動アクションをスケジュールすることもできます。

  • Amazon SNS – アプリケーション、エンドユーザー、デバイスがクラウドから通知を瞬時に送受信できるようにするウェブサービス。Amazon SNS は、ハイスループット、プッシュベースの many-to-manyメッセージングのトピック (通信チャネル) を提供しています。Amazon SNSトピックを使用すると、パブリッシャーは Amazon Simple Queue Service (Amazon SQS) キュー、AWSLambda 関数、HTTP/S ウェブフックなど、並列処理のためにメッセージを多数のサブスクライバーに配信できます。Amazon を使用してSNS、モバイルプッシュ、、SMSおよび E メールを使用してエンドユーザーに通知を送信することもできます。

エピック

タスク説明必要なスキル

データセットをサブスクライブする

AWS Data Exchange コンソールで、データセットをサブスクライブします。手順については、「関連リソース」セクションのリンクを参照してください。

全般 AWS

データセットの属性に注意してください。

データセットのAWSリージョン、ID、リビジョン ID を書き留めます。これは、次のステップでAWS CloudFormation テンプレートに必要です。

全般 AWS
タスク説明必要なスキル

S3 バケットとフォルダを作成する。

Amazon S3 に既にデータレイクがある場合は、Data AWS Exchange から取り込むデータを保存するフォルダを作成します。テスト目的でテンプレートをデプロイする場合は、新しい S3 バケットを作成し、次のステップのためにバケット名とフォルダプレフィックスを書き留めておきます。

全般 AWS

AWS CloudFormation テンプレートをデプロイします。

このパターンの添付ファイルとして提供されるAWS CloudFormation テンプレートをデプロイします。AWS アカウント、データセット、および S3 バケット設定に対応するように、データセットAWSリージョン、データセット ID、リビジョン ID、S3 バケット名 (例: DOC-EXAMPLE-BUCKET)、フォルダプレフィックス (例: myfolder/)、通知用 E メールのパラメータを設定しますSNS。データセット名パラメータは任意の名前に設定できます。テンプレートをデプロイすると、Lambda 関数が実行され、データセットで使用可能な最初のデータセットが自動的に取り込まれます。その後、データセットに新しいデータが到着すると、自動的に取り込まれます。

全般 AWS

関連リソース

添付ファイル

このドキュメントに関連する追加コンテンツにアクセスするには、次のファイルを解凍してください。「attachment.zip