將 AWS Data Exchange 中的資料擷取自動化到 Amazon S3 - AWS Prescriptive Guidance

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

將 AWS Data Exchange 中的資料擷取自動化到 Amazon S3

由阿爾維(AWS)創建

技術:分析; 資料湖

環境:生產

AWS 服務:Amazon S3; Amazon CloudWatch; AWS Lambda Amazon SNS

Summary

此模式提供 AWS CloudFormation 範本,可讓您在 Amazon Simple Storage Service (Amazon S3) 中自動將 AWS Data Exchange 中的資料內嵌到資料湖中。 

AWS Data Exchange 服務可讓您輕鬆地在 AWS 雲端中安全地交換以檔案為基礎的資料集。AWS Data Exchange 資料集以訂閱為基礎。身為訂閱者,您也可以在提供者發佈新資料時存取資料集修訂。 

AWS CloudFormation 範本會建立 Amazon CloudWatch Events 件和 AWS Lambda 函數。事件會監視您訂閱的資料集是否有任何更新。如果有更新,CloudWatch 會啟動 Lambda 函數,該函數會將資料複製到您指定的 S3 儲存貯體。成功複製資料後,Lambda 會傳送 Amazon Simple Notification Service (Amazon SNS) 通知。

先決條件和限制

先決條件

  • 作用中的 AWS 帳戶

  • 在 AWS Data Exchange 中訂閱資料集

限制

  • AWS CloudFormation 範本必須針對 AWS Data Exchange 中的每個訂閱資料集分別部署。

Architecture

目標技術堆疊

  • AWS Lambda

  • Amazon S3

  • AWS Data Exchange

  • Amazon CloudWatch

  • Amazon SNS

目標架構

自動化和調整規模

對於要內嵌到資料湖的資料集,您可以多次使用 AWS CloudFormation 範本。

Tools

  • AWS Data Exchange— 可讓 AWS 客戶輕鬆安全地在 AWS 雲端中交換以檔案為基礎的資料集的服務。身為訂閱者,您可以尋找並訂閱合格資料供應商的數百種產品。然後,您可以快速下載資料集或將其複製到 Amazon S3,以便在各種 AWS 分析和機器學習服務中使用。任何擁有 AWS 帳戶的人都可以是 AWS Data Exchange 員。

  • AWS Lambda— 一種運算服務,可讓您執行程式碼,而無需佈建或管理伺服器。AWS Lambda 只有在需要時才會執行程式碼,可自動從每天數項請求擴展成每秒數千項請求。您只要按實際使用的運算時間付費即可,未執行程式碼時不必支付任何費用。透過 AWS Lambda,您幾乎可以為任何類型的應用程式或後端服務執行程式碼,而且無須管理。AWS Lambda 在高可用性的運算基礎設施上執行您的程式碼,並管理所有運算資源,包括伺服器和作業系統維護,容量佈建與自動擴展、程式碼監控和記錄。

  • Amazon S3— 網際網路的儲存體。您可以使用 Amazon S3 隨時從 Web 任何地方存放和擷取任意資料量。

  • Amazon CloudWatch Events— 交付近乎即時的系統事件串流,描述 AWS 資源中的變更。使用您可以快速設定的簡單規則,您可以比對事件並將它們路由到一或多個目標函數或串流。CloudWatch Events 在操作變更時會查覺到。它會回應這些操作變更並視需要進行修正動作,透過傳送訊息來回應環境、啟用功能、執行變更和擷取狀態資訊。您也可使用 CloudWatch Events 排定自動化動作,讓動作使用Cron比率運算式。

  • Amazon SNS— 一種 Web 服務,可讓應用程式、最終使用者和裝置立即從雲端傳送和接收通知。Amazon SNS 針對高輸送量、以推送為基礎的多對多傳訊提供主題 (通訊通道)。發佈商可以使用 Amazon SNS 主題將訊息分發給大量的訂閱者以進行平行處理,包括 Amazon Simple Queue Service (Amazon SQS) 佇列、AWS Lambda 函數和 HTTP/S 網路掛鉤。您也可以使用 Amazon SNS 透過行動推送、SMS 和電子郵件傳送通知給最終使用者。

Epics

任務描述所需的技能
訂閱資料集。

在 AWS Data Exchange 主控台中,訂閱資料集。如需指示,請參閱 < 相關資源 > 一節中的連結。

一般 AWS
請注意資料集屬性。

請注意資料集的 AWS 區域、ID 和修訂 ID。您在下一個步驟中會需要使用到 AWS CloudFormation 範本。

一般 AWS
任務描述所需的技能
建立 S3 儲存貯體和資料夾。

如果您在 Amazon S3 中已有資料湖,請建立資料夾以儲存要從 AWS Data Exchange 中擷取的資料。如果您要部署範本以進行測試,請建立新的 S3 儲存貯體,並記下下一個步驟的儲存貯體名稱和資料夾前置詞。

一般 AWS
部署 AWS CloudFormation 範本。

部署作為此模式附件提供的 AWS CloudFormation 範本。設定下列參數以對應您的 AWS 帳戶、資料集和 S3 儲存貯體設定:資料集 AWS 區域、資料集 ID、修訂 ID、S3 儲存貯體名稱 (例如,文件範例-儲存貯體)、資料夾前置詞 (例如,我的資料夾/) 以及 SNS 通知的電子郵件。您可將 [資料集名稱] 參數設成任何名稱。當您部署範本時,它會執行 Lambda 函數,以自動內嵌資料集中可用的第一組資料。隨後的擷取會自動進行,當新資料到達資料集時。

一般 AWS

Attachments

attachment.zip