本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
執行個體儲存選項和行為
概觀
執行個體存放區和 Amazon EBS 磁碟區儲存用於HDFS資料,以及某些應用程式可能會「溢出」到本機檔案系統的緩衝區、快取、暫存資料和其他臨時內容。
Amazon 在 Amazon EMR 內部的EBS工作方式與常規 Amazon EC2 實例不同。連接到 Amazon EMR 叢集的 Amazon EBS 磁碟區是暫時的:叢集和執行個體終止時 (例如,在縮小執行個體群組時) 時,磁碟區會被刪除,因此您不應預期資料會持續存在。雖然資料是暫時的,但是中的資料可HDFS能會根據叢集中節點的數目和特殊化來複製。當您新增 Amazon EBS 儲存磁碟區時,這些磁碟區會掛接為其他磁碟區。他們不是開機磁碟區的一部分。YARN已設定為使用所有其他磁碟區,但您必須負責將額外的磁碟區配置為本機儲存區 (例如,針對本機記錄檔)。
考量事項
將 Amazon EBS 與EMR叢集搭配使用時,請記住這些額外考量事項:
-
您無法對 Amazon EBS 卷進行快照,然後在 Amazon 中恢復它EMR。若要建立可重複使用的自訂組態,請使用自訂組態 AMI (適用於 Amazon 5.7.0 及更新EMR版本)。如需詳細資訊,請參閱使用自訂功AMI能為叢集配置提供更大的彈性。
-
僅在使用自訂時,才支援加密的 Amazon EBS 根裝置磁碟區AMI。如需詳細資訊,請參閱使用加密AMI的 Amazon EBS 根裝置磁碟區建立自訂。
-
如果您使用 Amazon 套用標籤 EMRAPI,則這些操作會套用至EBS磁碟區。
-
每個執行個體的磁碟區限制為 25。
-
核心節點上的 Amazon EBS 卷不能小於 5 GB。
-
Amazon 的每個執行個體啟動請求EBS有 2,500 個EBS磁碟區的固定限制。此限制也適用於EC2叢集EMR上的 Amazon。建議您在此限制範圍內啟動EBS磁碟區總數的叢集,然後根據需要手動擴展叢集或使用 Amazon EMR 受管擴展。若要深入了解EBS磁碟區限制,請參閱服務配額。
適用於執行個EBS體的預設 Amazon
對於EBS只有儲存的EC2執行個體,Amazon EMR 會將 Amazon EBS gp2 或 gp3 儲存磁碟區分配給執行個體。當您使用 Amazon EMR 版本 5.22.0 及更高版本建立叢集時,Amazon EBS 儲存的預設數量會隨執行個體的大小而增加。
我們將任何增加的儲存空間分配至多個磁碟區。這樣可以提高IOPS效能,進而提高某些標準化工作負載的效能。如果您想要使用不同的 Amazon EBS 執行個體儲存組態,可以在建立EMR叢集或將節點新增至現有叢集時指定此組態。您可以使用 Amazon EBS gp2 或 gp3 磁碟區做為根磁碟區,並新增 gp2 或 gp3 磁碟區做為其他磁碟區。如需詳細資訊,請參閱指定其他EBS儲存磁碟區。
下表說明每個執行個體類型的 Amazon EBS gp2 儲存磁碟區、大小和總大小的預設數量。如需有關 gp2 磁碟區與 gp3 的比較資訊,請參閱 比較 Amazon EBS 卷類型 gp2 和 gp3。
Amazon EMR 5.22.0 及更高版本的默認 Amazon EBS gp2 存儲卷和按實例類型劃分的大小 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
執行個體大小 | 磁碟區數目 | 磁碟區大小 (GiB) | 大小總計 (GiB) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
*.large |
1 |
32 |
32 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
*.xlarge |
2 |
32 |
64 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
*.2xlarge |
4 |
32 |
128 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
*.4xlarge |
4 |
64 |
256 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
*.8xlarge |
4 |
128 |
512 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
9xlarge |
4 |
144 |
576 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
10xlarge |
4 |
160 |
640 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
12xlarge |
4 |
192 |
768 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
*.16xlarge |
4 |
256 |
1024 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
18xlarge |
4 |
288 |
1152 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
24xlarge |
4 |
384 |
1536 |
執行個體的預設 Amazon EBS 根磁碟區
在 Amazon 6.15 及更高EMR版本中,Amazon EMR 會自動附加一個 Amazon EBS 一般用途SSD(gp3)作為根設備,AMIs以提高性能。在舊版中,Amazon 會EMR將EBS一般用途 SSD (gp2) 附加為根裝置。
6.15 及更高版本 | 6.14 及更低版本 | |
---|---|---|
預設根磁碟區類型 |
|
|
預設大小 |
|
|
預設 IOPS |
|
|
預設輸送量 |
|
如需如何自訂 Amazon EBS 根裝置磁碟區的相關資訊,請參閱指定其他EBS儲存磁碟區。
指定其他EBS儲存磁碟區
在 Amazon 中設定執行個體類型時EMR,您可以指定其他EBS磁碟區,以增加執行個體存放區 (如果存在) 和預設磁碟區之外的容EBS量。Amazon EBS 提供下列磁碟區類型:一般用途 (SSD)、佈建 IOPS (SSD)、輸送量優化 (HDD)、冷 (HDD) 和磁帶。它們各有不同的效能特性及價格,因此您可以根據應用程式的分析和商業需求來量身打造儲存空間。例如,有些應用程式可能需要溢寫至磁碟,而有些則可以在記憶體內或使用 Amazon S3 安全地運作。
您只能在叢集啟動時以及新增額外的任務節點執行個體群組時,將 Amazon EBS 磁碟區連接至執行個體。如果 Amazon EMR 叢集中的執行個體發生故障,則執行個體和連接的 Amazon EBS 磁碟區都會被新磁碟區取代。因此,如果您手動分離 Amazon EBS 磁碟區,Amazon 會EMR將其視為故障,並取代執行個體儲存 (如果適用) 和磁碟區存放區。
Amazon EMR 不允許您將現有叢集的磁碟區類型從 gp2 修改為 gp3。EMR若要將 gp3 用於工作負載,請啟動新EMR叢集。此外,我們不建議您在使用中或正在佈建的叢集IOPS上更新輸送量,因為 Amazon 會針對在叢集擴展期間新增的任何新執行個體EMR使用您在叢集啟動時指定的輸送量和IOPS值。如需詳細資訊,請參閱 比較 Amazon EBS 卷類型 gp2 和 gp3 和 移轉至 gp3 時的選取IOPS和輸送量。
重要
若要在EMR叢集中使用 gp3 磁碟區,您必須啟動新叢集。