資源 - AWS Data Pipeline

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資源

在 AWS Data Pipeline 中,資源是執行管道活動所指定工作的運算資源。AWS Data Pipeline 支援以下類型的資源:

Ec2Resource

執行管道活動所定義工作的 EC2 執行個體。

EmrCluster

Amazon EMR 叢集,可執行管道活動定義的工作,例如EmrActivity.

資源可以與其工作資料集在相同區域中執行,甚至是不同於 AWS Data Pipeline 的區域。如需詳細資訊,請參閱在多個區域中搭配資源使用管道

資源限制

AWS Data Pipeline 可擴展以容納大量的並行任務,而且您可以進行設定來自動建立處理大型工作負載所需的資源。這些自動建立的資源由您控制,並會計入您的 AWS 帳戶資源限制。例如,如果您設定AWS Data Pipeline為自動建立 20 個節點的 Amazon EMR 叢集來處理資料,而您的 AWS 帳戶的 EC2 執行個體限制設定為 20,則可能會不小心耗盡可用的回填資源。因此,請考慮將這些資源限制納入您的設計,或據以增加您的帳戶限制。如需服務限制的詳細資訊,請參閱 AWS 一般參考中的 AWS 服務限制

注意

每個 Ec2Resource 元件物件僅限一個執行個體。

支援的平台

管道可以將您的資源啟動至下列平台:

EC2-Classic

您的資源執行於與其他客戶共享的單一平面網路中。

EC2-VPC

您的資源執行於邏輯上與您 AWS 帳戶隔離的虛擬私有雲端 (VPC) 中。

您的 AWS 帳戶可以將資源啟動至兩個平台,或者僅在 EC2-VPC 中以區域為基礎啟動資源。如需詳細資訊,請參閱 Amazon EC2 Linux 執行個體使用者指南中的支援平台

如果您的 AWS 帳戶僅支援 EC2-VPC,我們會在每個 AWS 區域中為您建立預設 VPC。根據預設,我們會將您的資源啟動至您預設 VPC 的預設子網路。或者,您可以在設定資源時,建立非預設 VPC 並指定其中一個子網路,然後將您的資源啟動至非預設 VPC 的指定子網路。

當您將執行個體啟動至 VPC 時,您必須指定專為該 VPC 建立的安全群組。當您將執行個體啟動至 VPC 時,您無法指定為 EC2-Classic 建立的安全群組。此外,您必須使用安全群組 ID 而非安全性群組名稱,來識別 VPC 的安全群組。

亞馬遜 EC2 競價型執行個體與亞馬遜 EMR 叢集和 AWS Data Pipeline

管道可以將 Amazon EC2 競價型執行個體用於其 Amazon EMR 叢集資源中的任務節點。根據預設,管道會使用隨需執行個體。Spot 執行個體可讓您使用並執行備用的 EC2 執行個體。Spot 執行個體的定價模型是對隨需和預留執行個體定價模型的補充,可根據您的應用程式提供最符合成本效益的選項來取得運算容量。如需詳細資訊,請參閱 Amazon EC2 Spot 執行個體產品頁面。

使用競價型執行個體時,請在叢集啟動時將競價型執行個體最高價AWS Data Pipeline提交給 Amazon EMR。這會自動將叢集的工作配置給您使用 taskInstanceCount 欄位定義的 Spot 執行個體任務節點數量。AWS Data Pipeline 會限制用於任務節點的 Spot 執行個體數量,以確保有隨需核心節點可用來執行您的管道。

您可以編輯失敗或完成的管道資源執行個體來新增 Spot 執行個體。當管道重新啟動叢集時,會針對任務節點使用 Spot 執行個體。

Spot 執行個體考量

當您搭配 AWS Data Pipeline 使用Spot 執行個體時,適用下列考量:

  • 當競價型執行個體價格超過執行個體的最高價格時,或由於 Amazon EC2 容量原因,您的競價型執行個體可能會終止。不過,您不會遺失資料,因為 AWS Data Pipeline 會採用包含核心節點的叢集,這些核心節點一律為隨需執行個體,因此不會終止。

  • 由於 Spot 執行個體是以非同步方式填滿容量,因此可能需要更長的時間啟動。因此,Spot 執行個體管道的執行速度可能比同等的隨需執行個體管道慢。

  • 如果您未收到 Spot 執行個體 (例如當您的最高價太低時),您的叢集可能不會執行。