執行個體儲存選項和行為 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

執行個體儲存選項和行為

概觀

執行個體存放區和 Amazon EBS 磁碟區儲存用於HDFS資料,以及某些應用程式可能會「溢出」到本機檔案系統的緩衝區、快取、暫存資料和其他臨時內容。

Amazon 在 Amazon EMR 內部的EBS工作方式與常規 Amazon EC2 實例不同。連接到 Amazon EMR 叢集的 Amazon EBS 磁碟區是暫時的:叢集和執行個體終止時 (例如,在縮小執行個體群組時) 時,磁碟區會被刪除,因此您不應預期資料會持續存在。雖然資料是暫時的,但是中的資料可HDFS能會根據叢集中節點的數目和特殊化來複製。當您新增 Amazon EBS 儲存磁碟區時,這些磁碟區會掛接為其他磁碟區。他們不是開機磁碟區的一部分。YARN已設定為使用所有其他磁碟區,但您必須負責將額外的磁碟區配置為本機儲存區 (例如,針對本機記錄檔)。

考量事項

將 Amazon EBS 與EMR叢集搭配使用時,請記住這些額外考量事項:

  • 您無法對 Amazon EBS 卷進行快照,然後在 Amazon 中恢復它EMR。若要建立可重複使用的自訂組態,請使用自訂組態 AMI (適用於 Amazon 5.7.0 及更新EMR版本)。如需詳細資訊,請參閱使用自訂功AMI能為叢集配置提供更大的彈性

  • 僅在使用自訂時,才支援加密的 Amazon EBS 根裝置磁碟區AMI。如需詳細資訊,請參閱使用加密AMI的 Amazon EBS 根裝置磁碟區建立自訂

  • 如果您使用 Amazon 套用標籤 EMRAPI,則這些操作會套用至EBS磁碟區。

  • 每個執行個體的磁碟區限制為 25。

  • 核心節點上的 Amazon EBS 卷不能小於 5 GB。

  • Amazon 的每個執行個體啟動請求EBS有 2,500 個EBS磁碟區的固定限制。此限制也適用於EC2叢集EMR上的 Amazon。建議您在此限制範圍內啟動EBS磁碟區總數的叢集,然後根據需要手動擴展叢集或使用 Amazon EMR 受管擴展。若要深入了解EBS磁碟區限制,請參閱服務配額

適用於執行個EBS體的預設 Amazon

對於EBS只有儲存的EC2執行個體,Amazon EMR 會將 Amazon EBS gp2 或 gp3 儲存磁碟區分配給執行個體。當您使用 Amazon EMR 版本 5.22.0 及更高版本建立叢集時,Amazon EBS 儲存的預設數量會隨執行個體的大小而增加。

我們將任何增加的儲存空間分配至多個磁碟區。這樣可以提高IOPS效能,進而提高某些標準化工作負載的效能。如果您想要使用不同的 Amazon EBS 執行個體儲存組態,可以在建立EMR叢集或將節點新增至現有叢集時指定此組態。您可以使用 Amazon EBS gp2 或 gp3 磁碟區做為根磁碟區,並新增 gp2 或 gp3 磁碟區做為其他磁碟區。如需詳細資訊,請參閱指定其他EBS儲存磁碟區

下表說明每個執行個體類型的 Amazon EBS gp2 儲存磁碟區、大小和總大小的預設數量。如需有關 gp2 磁碟區與 gp3 的比較資訊,請參閱 比較 Amazon EBS 卷類型 gp2 和 gp3

Amazon EMR 5.22.0 及更高版本的默認 Amazon EBS gp2 存儲卷和按實例類型劃分的大小
執行個體大小 磁碟區數目 磁碟區大小 (GiB) 大小總計 (GiB)

*.large

1

32

32

*.xlarge

2

32

64

*.2xlarge

4

32

128

*.4xlarge

4

64

256

*.8xlarge

4

128

512

9xlarge

4

144

576

10xlarge

4

160

640

12xlarge

4

192

768

*.16xlarge

4

256

1024

18xlarge

4

288

1152

24xlarge

4

384

1536

執行個體的預設 Amazon EBS 根磁碟區

在 Amazon 6.15 及更高EMR版本中,Amazon EMR 會自動附加一個 Amazon EBS 一般用途SSD(gp3)作為根設備,AMIs以提高性能。在舊版中,Amazon 會EMR將EBS一般用途 SSD (gp2) 附加為根裝置。

6.15 及更高版本 6.14 及更低版本
預設根磁碟區類型
  • gp3

  • gp2

預設大小
  • 15 GiB

  • (可設定)

  • 6.10 及更高版本 = 15 GiB

  • 6.9 及更低版本 = 10 GiB

  • (可設定)

預設 IOPS
  • 3000

  • (可設定)

預設輸送量
  • 125 MiB/s

  • (可設定)

如需如何自訂 Amazon EBS 根裝置磁碟區的相關資訊,請參閱指定其他EBS儲存磁碟區

指定其他EBS儲存磁碟區

在 Amazon 中設定執行個體類型時EMR,您可以指定其他EBS磁碟區,以增加執行個體存放區 (如果存在) 和預設磁碟區之外的容EBS量。Amazon EBS 提供下列磁碟區類型:一般用途 (SSD)、佈建 IOPS (SSD)、輸送量優化 (HDD)、冷 (HDD) 和磁帶。它們各有不同的效能特性及價格,因此您可以根據應用程式的分析和商業需求來量身打造儲存空間。例如,有些應用程式可能需要溢寫至磁碟,而有些則可以在記憶體內或使用 Amazon S3 安全地運作。

您只能在叢集啟動時以及新增額外的任務節點執行個體群組時,將 Amazon EBS 磁碟區連接至執行個體。如果 Amazon EMR 叢集中的執行個體發生故障,則執行個體和連接的 Amazon EBS 磁碟區都會被新磁碟區取代。因此,如果您手動分離 Amazon EBS 磁碟區,Amazon 會EMR將其視為故障,並取代執行個體儲存 (如果適用) 和磁碟區存放區。

Amazon EMR 不允許您將現有叢集的磁碟區類型從 gp2 修改為 gp3。EMR若要將 gp3 用於工作負載,請啟動新EMR叢集。此外,我們不建議您在使用中或正在佈建的叢集IOPS上更新輸送量,因為 Amazon 會針對在叢集擴展期間新增的任何新執行個體EMR使用您在叢集啟動時指定的輸送量和IOPS值。如需詳細資訊,請參閱 比較 Amazon EBS 卷類型 gp2 和 gp3移轉至 gp3 時的選取IOPS和輸送量

重要

若要在EMR叢集中使用 gp3 磁碟區,您必須啟動新叢集。