管道定義 - AWS Data Pipeline

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

管道定義

管道定義是您向 AWS Data Pipeline 傳達商業邏輯的方式。其中包含下列資訊:

  • 您資料來源的名稱、位置和格式

  • 轉換資料的活動

  • 這些活動的排程

  • 執行您活動和先決條件的資源

  • 必須滿足才能排程活動的先決條件

  • 在管道繼續執行時提醒您狀態更新的方式

從您的管道定義,AWS Data Pipeline 可判斷任務、排程任務,並將其指派給任務執行器。如果任務未成功完成,AWS Data Pipeline 會根據您的指示重試任務,並在必要時將其重新指派給其他任務執行器。如果任務重複失敗,您可以設定管道來接收通知。

例如,在管道定義中,您可以指定應用程式產生的日誌檔每個月在 2013 年存檔到 Amazon S3 儲存貯體。 AWS Data Pipeline然後,將創建 12 個任務,每個任務複製超過一個月的數據,無論該月是否包含 30 天,31,28 還是 29 天。

您可以透過下列方式建立管道定義:

  • 以圖形方式,透過使用 AWS Data Pipeline 主控台

  • 以文字方式,透過撰寫命令列界面所用格式的 JSON 檔案

  • 以程式設計方式,透過使用其中一個 AWS 開發套件或 AWS Data Pipeline API 來呼叫 Web 服務

管道定義可以包含以下類型的元件。

管道元件
資料節點

任務的輸入資料位置,或輸出資料的存放位置。

活動

使用運算資源 (通常為輸入和輸出資料節點) 執行排程的工作定義。

先決條件

必須為 true 才能執行動作的條件陳述式。

資源

執行管道所定義工作的運算資源。

動作

符合指定條件 (例如活動失敗) 時所觸發的動作。

如需詳細資訊,請參閱管線定義檔案語法