自動從 AWS Data Exchange 擷取到 Amazon S3 的資料 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自動從 AWS Data Exchange 擷取到 Amazon S3 的資料

由阿德南海藻(AWS)和曼尼康塔·戈納(AWS)創建

技術:分析;資料湖

環境:生產

AWS 服務:Amazon S3; Amazon CloudWatch; AWS Lambda; Amazon SNS

Summary

此模式提供 AWS CloudFormation 範本,可讓您將 AWS Data Exchange 中的資料自動導入 Amazon Simple Storage Service (Amazon S3) 中的資料湖。 

AWS Data Exchange 是一項服務,可讓您輕鬆在 AWS 雲端中安全地交換以檔案為基礎的資料集。AWS Data Exchange 資料集是以訂閱為基礎。身為訂閱者,您也可以在提供者發佈新資料時存取資料集修訂。 

AWS CloudFormation 範本會建立 Amazon CloudWatch 活動事件和 AWS Lambda 函數。此事件會監視您已訂閱之資料集的任何更新。如果有更新,請 CloudWatch 啟動 Lambda 函數,將資料複製到您指定的 S3 儲存貯體。成功複製資料後,Lambda 會傳送 Amazon Simple Notification Service (Amazon SNS) 通知給您。

先決條件和限制

先決條件

  • 有效的 AWS 帳戶

  • 訂閱 AWS Data Exchange 中的資料集

限制

  • AWS CloudFormation 範本必須針對 AWS Data Exchange 中的每個訂閱資料集個別部署。

架構

目標技術堆疊

  • AWS Lambda

  • Amazon S3

  • AWS Data Exchange

  • Amazon CloudWatch

  • Amazon SNS

目標架構

CloudWatch 啟動 Lambda 函數以將資料複製到 S3 儲存貯體,並傳送 Amazon SNS 通知。

自動化和規模

您可以針對要擷取到資料湖中的資料集多次使用 AWS CloudFormation 範本。

工具

  • AWS Data Exchange — 這項服務可讓 AWS 客戶輕鬆在 AWS 雲端安全地交換檔案型資料集。作為訂閱者,您可以從合格的數據提供商那裡找到並訂閱數百種產品。然後,您可以快速下載資料集或將其複製到 Amazon S3,以便在各種 AWS 分析和機器學習服務中使用。擁有 AWS 帳戶的任何人都可以是 AWS Data Exchange 訂閱者。

  • AWS Lambda — 一種運算服務,可讓您執行程式碼,而無需佈建或管理伺服器。AWS Lambda 只有在需要時才會執行程式碼,可自動從每天數項請求擴展成每秒數千項請求。您只需為使用的運算時間付費;程式碼未執行時不會收取任何費用。使用 AWS Lambda,您可以針對幾乎任何類型的應用程式或後端服務執行程式碼,而無需管理。AWS Lambda 在高可用性運算基礎設施上執行程式碼,並管理所有運算資源,包括伺服器和作業系統維護、容量佈建和自動擴展、程式碼監控和記錄。

  • Amazon S3 — 互聯網存儲。您可以使用 Amazon S3 隨時從 Web 任何地方存放和擷取任意資料量。

  • Amazon CloudWatch 活動 — 提供近乎即時的系統事件串流,描述 AWS 資源的變更。使用可快速設置的簡單規則,您可以匹配事件並將其路由到一個或多個目標函數或流。 CloudWatch 事件在發生時意識到操作變化。它會回應這些作業變更,並在必要時採取修正動作,方法是傳送訊息以回應環境、啟動功能、進行變更,以及擷取狀態資訊。您也可以使用 CloudWatch 事件來排程使用 cron 或速率運算式在特定時間自行啟動的自動化動作。

  • Amazon SNS — 一種 Web 服務,可讓應用程式、最終使用者和裝置立即從雲端傳送和接收通知。Amazon SNS 針對高輸送量、以推送為基礎的簡訊提供主題 (通訊管道)。 many-to-many 使用 Amazon SNS 主題,發佈者可以將訊息分發給大量訂閱者以進行 parallel 處理,包括 Amazon Simple Queue Service (Amazon SQS) 佇列、AWS Lambda 函數和 HTTP/S 網路掛鉤。您也可以使用 Amazon SNS 透過行動推送、簡訊和電子郵件傳送通知給最終使用者。

史诗

任務描述所需技能

訂閱資料集。

在 AWS Data Exchange 主控台中,訂閱資料集。如需指示,請參閱「相關資源」一節中的連結。

一般 AWS

請注意資料集屬性。

請記下資料集的 AWS 區域、ID 和修訂 ID。在下一個步驟中,您將需要此功能用於 AWS CloudFormation 範本。

一般 AWS
任務描述所需技能

建立 S3 儲存貯體和資料夾。

如果 Amazon S3 中已有資料湖,請建立資料夾來存放要從 AWS Data Exchange 擷取的資料。如果您要部署範本以進行測試,請建立新的 S3 儲存貯體,並記下下一個步驟的儲存貯體名稱和資料夾前置詞。

一般 AWS

部署 AWS CloudFormation 範本。

將以附件形式提供的 AWS CloudFormation 範本部署到此模式。設定下列參數以對應您的 AWS 帳戶、資料集和 S3 儲存貯體設定:資料集 AWS 區域、資料集 ID、修訂 ID、S3 儲存貯體名稱 (例如,文件 EXAMPLE-BUCKET)、資料夾前綴 (例如,我的資料夾/) 以及 SNS 通知的電子郵件。您可以將「資料集名稱」參數設定為任何名稱。當您部署範本時,它會執行 Lambda 函數,以自動擷取資料集中的第一組可用資料。隨後,隨後的擷取會自動進行,因為新的資料到達資料集。

一般 AWS

相關資源

附件

若要存取與此文件相關聯的其他內容,請解壓縮下列檔案:attachment.zip