AWS Data Pipeline 入門 - AWS Data Pipeline

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Data Pipeline 入門

AWS Data Pipeline 可協助您透過可靠且經濟實惠的方式,排序、排程、執行和管理週期性資料處理工作負載。此服務可讓您根據商務邏輯,輕鬆使用內部部署和雲端中的結構化和非結構化資料來設計 extract-transform-load (ETL) 活動。

若要使用 AWS Data Pipeline,您可以建立「管道定義」以指定您的資料處理的商業邏輯。典型的管線定義包含定義要執行之工作的活動,以及定義輸入和輸出資料位置和類型的資料節點

在本教學中,您會執行 shell 命令指令碼以計算 Apache Web 伺服器日誌中的 GET 請求數量。此管道每 15 分鐘執行一小時,並在每次反覆運算時將輸出寫入 Amazon S3。

先決條件

開始之前,請完成設定 AWS Data Pipeline中的任務。

管道物件

管道會使用下列物件:

ShellCommandActivity

讀取輸入日誌檔案並計算錯誤的數量。

S3 DataNode (輸入)

內含輸入日誌檔案的 S3 儲存貯體。

S3 DataNode (輸出)

輸出的 S3 儲存貯體。

Ec2Resource

AWS Data Pipeline 用來執行活動的運算資源。

請注意,如果您有大量的日誌檔案資料,您可以設定管道使用 EMR 叢集處理檔案,而不是 EC2 執行個體。

排程

定義在一小時內每 15 分鐘執行一次活動。

建立管道

開始使用 AWS Data Pipeline 的最快速方法,就是使用管道定義,也稱為「範本」

建立管道
  1. 請在以下位置開啟AWS Data Pipeline主控台。 https://console.aws.amazon.com/datapipeline/

  2. 從導覽列上,選取一個區域。無論您的位置為何,皆可選取任何可用的區域。許多 AWS 資源都是針對特定的區域,但 AWS Data Pipeline 可讓您使用與管道不同區域的資源。

  3. 您看到的第一個畫面取決於您是否已在目前區域中建立管道。

    1. 如果您尚未在此區域建立管道,主控台會顯示簡介畫面。選擇立即開始使用

    2. 如果您已在此區域中建立管道,則主控台會顯示一個頁面,列出該區域的管道。選擇 Create new pipeline (建立新的管道)

  4. 名稱中,輸入管線的名稱。

  5. (選擇性) 在說明中,輸入管線的說明。

  6. 針對來源,選取使用範本建置,然後選取下列範本:入門使用ShellCommandActivity

  7. 選取範本時會開啟 Parameters (參數) 區段,請保留其下方 S3 input folder (輸入 S3 資料夾)Shell command to run (要執行的 Shell 命令) 的預設值。按一下 S3 output folder (輸出 S3 資料夾) 旁的資料夾圖示,選取其中一個儲存貯體或資料夾,然後按一下 Select (選取)

  8. 保留 Schedule (排程) 下方的預設值。當您啟用管道時,管道即會開始執行,然後在一小時內每 15 分鐘執行一次。

    您也可以改為選擇 Run once on pipeline activation (在管道啟用時執行一次)

  9. 在「管線組態」下,保持啟用記錄。選擇記錄 S3 位置下方的資料夾圖示,選取其中一個值區或資料夾,然後選擇 [選取]

    如果您願意,您可以改為停用記錄。

  10. 在 [安全性/存取] 下,將 IAM 角色保持設定為 [預設]。

  11. 按一下 Activate (啟動)

    如果您願意,您可以選擇在 Architect 中編輯來修改此配管。例如,您可以加入先決條件。

監控執行中的管道

啟用管道後,即會前往 Execution details (執行詳細資訊) 頁面,您可在此監控管道的進度。

監控管道的進度
  1. 按一下 Update (更新) 或按 F5 以更新所顯示的狀態。

    提示

    如果未列出任何執行,請確認 Start (in UTC) (開始 (UTC 時間))End (in UTC) (結束 (UTC 時間)) 涵蓋了管道排程的開始和結束時間,接著按一下 Update (更新)

  2. 當管道裡所有物件的狀態為 FINISHED,表示您的管道已成功完成了排程任務。

  3. 如果您的管道未成功完成,請檢查管道設定是否有問題。關於管道執行個體執行失敗或未完成的故障排除,如需詳細資訊,請參閱 解決常見的問題

檢視輸出

開啟 Amazon S3 主控台並導覽至您的儲存貯體。如果您在一小時內每 15 分鐘執行一次管道,您會看到四個含時間戳記的子資料夾。每個子資料夾都含有一個名為 output.txt 的輸出檔。因為我們每次都是在同一個輸入檔上執行指令碼,所以輸出檔都是相同的。

刪除管道

若要停止產生費用,請刪除管道。刪除配管會刪除配管定義及所有關聯物件。

若要刪除管線
  1. 在「列出配管」頁面上,選取您的管線。

  2. 按一下 [動作],然後選擇 [刪除]。

  3. 出現確認提示時,請選擇 Delete (刪除)。

如果您已完成本教學的輸出,請從 Amazon S3 儲存貯體刪除輸出資料夾。