選擇正確的儲存體 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

選擇正確的儲存體

設定叢集的執行個體類型和容量。核心和任務節點需要處理和運算能力,但只有核心節點會存放資料。為您的核心節點選取最具成本效益的儲存類型。

使用 Amazon EMR 處理大量資料時,您有幾個選項可從 Amazon S3 移動資料。最佳選項取決於您的工作負載。以下各節提供一些關鍵點,供您在決定哪種儲存類型是適合您的選擇時考慮。

Hadoop 分散式檔案系統

Hadoop 分散式檔案系統 (HDFS) 是 Hadoop 的分散式、可擴展和可攜式檔案系統。HDFS 的優勢在於能夠感知管理叢集的 Hadoop 叢集節點與管理個別步驟的 Hadoop 叢集節點之間的資料。

何時在 Amazon EMR 中使用 HDFS

當您在相同的資料集或磁碟 I/O 密集型工作負載上進行疊代讀取時,您可以使用 HDFS 快取中繼結果,並使用 做為處理資料的熱儲存。HDFS 是暫時性的,這表示會在執行個體終止時回收。

EMR 檔案系統

EMR 檔案系統 (EMRFS) 是 HDFS 的實作,Amazon EMR 叢集通常用於直接從 Amazon EMR 讀取和寫入一般檔案至 Amazon S3。

您可以在每次執行中讀取資料集一次時使用 EMRFS。EMRFS 會將儲存與運算分離,因此您不需要特別佈建核心節點來存放資料,也不需要支付 HDFS 中的資料複寫費用。這會導致成本降低,並提供多個叢集的資料可用性。您也可以在關閉叢集後保留資料。