選取和部署 Amazon EMR 叢集 - AWS 規定指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

選取和部署 Amazon EMR 叢集

識別和組織節點類型。當您定義 Amazon EMR 叢集時,請務必瞭解其硬體。其運作方式? 它是如何組成的? 這些問題的答案包括三個部分:

  • 節點的類型

  • 每個節點攜帶的功能

  • 每個節點最有效率的 EC2 執行個體類型

一開始,主要節點負責管理一般資源。它運行分佈式應用程序的主要組件。例如,它會執行 Hadoop 分散式檔案系統 (HDFS) NameNode 服務、追蹤叢集上要完成的工作,以及監視系統的健康狀態。

此外,Amazon EMR 具有核心節點和任務節點。核心節點由主節點管理。核心節點運行任務節點,並負責將數據存儲在集群上的 HDFS 中。任務節點負責管理來到叢集的任務。任務節點不存儲數據。(任務節點不是強制性的。)

在設定和部署 Amazon EMR 叢集時,一個重要的考量因素是選擇代表叢集節點的 EC2 執行個體。根據您是使用執行個體群組組態還是叢集的執行個體叢集組態,有多種方法可將 EC2 執行個體新增至叢集。如需有關支援執行個體類型的詳細資訊,請參閱AWS 文件

下列準則適用於大部分的 Amazon EMR 叢集。您也可以檢閱叢集組態最佳作法

執行個體選取準

一般而言,哪些執行個體適用於 Amazon EMR 實作,取決於您正在執行的任務。請考慮下列問題:

  • 您的工作記憶密集型嗎?

  • 您的工作 CPU 密集型嗎?

  • 您是否需要大量儲存空間?

  • 您的工作是否需要 GPU 容量?

這些問題可協助您瞭解所需執行個體的類型以及所需的實際特性。決定您要同時處理多少個工作,以及您需要處理工作的速度。這一點很重要,因為 Amazon EMR 用量是按小時增量計費。開啟叢集時,需支付整個小時的費用。

您可以查看在不同 AWS 區域中執行的每個執行個體的成本。要比較區域之間的價格,您可以使用定AWS 價計算器並根據您的位置更改值。

選取 EC2 執行個體

當您回答了先前的問題後,就該根據這些需求選擇實例了。瞭解處理工作需求後,請根據您需要的特性決定執行個體類型:

  • 如果您需要一般用途執行個體,請選擇 M6gT4G 或 M5 執行個體。

  • 如果您需要運算最佳化執行個體,請選擇 C6g 或 C 5 執行個體。

  • 如果您需要記憶體最佳化執行個體,請選擇 R6gX1R5 或 z1d 執行個體。

  • 如果您必須針對儲存進行最佳化,請選擇可提供高 I/O 效能的 I3 執行個體。

  • 如果您需要 GPU 等加速運算,請選擇 P3G4InF1 執行個體。這些執行個體類型可為機器學習和流體動力學以及其他程序提供高效能。

另一種瞭解執行個體類型及其功能的方法是分析每個執行個體類型的預設記憶體。此指標可幫助您調整和提高 MapReduce 工作的性能。如需詳細資訊,請參閱 Hadoop 精靈組態設定

當您知道所需的執行個體類型時,就可以規劃叢集容量。