Amazon EMR 組態最佳實務 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon EMR 組態最佳實務

設定 Amazon EMR 叢集時,請使用下列最佳實務來新增執行個體、使用執行個體群組,以及使用 Spot 執行個體。

新增執行個體

當您設定 EMR 叢集時,重要的考量是 EC2 執行個體的正確選擇,其將代表您的叢集節點。請記住,您無法在叢集執行時變更執行個體類型,例如將 Spot 執行個體變更為隨需執行個體。若要變更主要節點,您必須關閉叢集並建立新的叢集。這就是為什麼您必須選擇正確的執行個體類型,才能盡可能縮短停機時間。如需詳細資訊,請參閱叢集組態準則和最佳實務

有數種方式可將 EC2 執行個體新增至叢集,取決於您使用叢集的執行個體群組組態或執行個體機群組態:

  • 手動新增 EC2 執行個體

  • 在執行個體群組上手動新增任務,以自動新增執行個體

  • 設定自動擴展

執行個體群組

當您將 EC2 執行個體新增至您的組態時,請考慮使用執行個體群組。如果您要手動新增執行個體,您可以將相同類型的執行個體新增至現有的核心和任務執行個體群組。此外,您可以新增任務執行個體群組,該群組可以使用不同的執行個體類型。

最後,在執行個體群組的 Amazon EMR 中設定自動擴展。您可以根據您指定的 Amazon CloudWatch 指標值自動新增和移除執行個體。否則,如果您使用的是執行個體機群,請新增單一任務執行個體機群。然後,變更現有核心和任務執行個體機群的隨需執行個體和 Spot 執行個體的目標容量。

Spot 執行個體

在任務節點上使用 Spot 執行個體。任務節點會處理資料,但不在 Hadoop 分散式檔案系統 (HDFS) 中保留持久性資料。如果任務節點因為 Spot 價格超過 Spot 價格上限而關閉,則不會遺失任何資料,而且對叢集的影響很小。

當您以 Spot 執行個體啟動任務執行個體群組時,Amazon EMR 會使用 Spot 價格上限,盡可能佈建任意數量的任務節點。例如,您可以請求具有六個節點的任務執行個體群組。如果只有五個 Spot 執行個體可用且等於或低於 Spot 價格上限,Amazon EMR 會啟動具有五個節點的執行個體群組。如果可能,Amazon EMR 稍後會新增第六個節點。如需詳細資訊,請參閱叢集組態準則和最佳實務