什麼是 AWS Data Pipeline? - AWS Data Pipeline

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

什麼是 AWS Data Pipeline?

注意

AWS Data Pipeline 服務處於維護模式,並且沒有計劃新功能或區域擴展。若要深入瞭解並瞭解如何移轉現有工作負載,請參閱從移轉工作負載 AWS Data Pipeline

AWS Data Pipeline 是一種 Web 服務,您可以使用它來自動化數據的移動和轉換。使用 AWS Data Pipeline,您可以定義資料驅動的工作流程,以便任務可以取決於先前任務的成功完成。您可以定義資料轉換的參數,並 AWS Data Pipeline 強制執行已設定的邏輯。

以下元件共同 AWS Data Pipeline 運作來管理您的資料:

  • 「管道定義」指定您資料管理的商業邏輯。如需詳細資訊,請參閱 管線定義檔案語法

  • 管道透過建立 Amazon EC2 執行個體來執行已定義的工作活動來排程和執行任務。您要將您的管道定義上傳到管道,然後啟動管道。您可以編輯管道定義以執行管道,並再次啟動管道讓它生效。您可以停用管道、修改資料來源,然後再次啟動管道。管道完成後,即可刪除。

  • 任務運行器輪詢任務,然後執行這些任務。例如,任務執行器可以將日誌檔案複製到 Amazon S3,然後啟動 Amazon EMR 叢集。Task Runner 會安裝並在管線定義建立的資源上自動執行。您可以撰寫自訂工作執行程式應用程式,也可以使用由提供的工作執行程式應用程式 AWS Data Pipeline。如需詳細資訊,請參閱 任務執行器

例如,您可以使用每天將 Web 伺服器的日誌存檔 AWS Data Pipeline 到 Amazon Simple Storage Service (Amazon S3),然後在這些日誌上執行每週 Amazon EMR (Amazon EMR) 叢集以產生流量報告。 AWS Data Pipeline 排程每日任務以複製資料,並排定每週任務以啟動 Amazon EMR 叢集。 AWS Data Pipeline 還可確保 Amazon EMR 在開始分析之前等待最後一天的資料上傳到 Amazon S3,即使上傳日誌有不可預見的延遲也是如此。

AWS Data Pipeline 功能概述

存取 AWS Data Pipeline

您可以使用下列任一界面來建立、存取和管理您的管道:

  • AWS Management Console— 提供可用於訪問的 Web 界面 AWS Data Pipeline。

  • AWS Command Line Interface (AWS CLI) — 為一組廣泛的 AWS 服務提供命令 AWS Data Pipeline,包括 Windows、macOS 和 Linux 上並受到支援。如需有關安裝的更多資訊 AWS CLI,請參閱AWS Command Line Interface。如需用於的指令清單 AWS Data Pipeline,請參閱資料副本。

  • AWS 開發套件 — 提供語言特定 API,並處理許多連線詳細資訊,例如計算簽章、處理請求重試和錯誤處理。如需詳細資訊,請參閱 AWS 開發套件

  • 查詢 API — 提供您使用 HTTPS 要求呼叫的低階 API。使用查詢 API 是存取 AWS Data Pipeline最直接的方式,但這需要您的應用程式處理低階詳細資訊,例如產生雜湊以簽署請求以及錯誤處理。如需詳細資訊,請參閱 AWS Data Pipeline API 參考

定價

使用 Amazon Web Services,您只需按實際用量付費。對於 AWS Data Pipeline,您可以根據活動和先決條件排定執行的頻率以及它們的執行位置來支付管道費用。如需詳細資訊,請參閱 AWS Data Pipeline 定價

如果您的 AWS 帳戶不超過 12 個月,您符合免費方案的使用資格。免費方案包含每月免費的 3 個低頻率先決條件和 5 個低頻率活動。如需詳細資訊,請參閱 AWS 免費方案