作業調校考量 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

作業調校考量

在 EMRFS Spark 執行程式上,S3 最佳化的提交通訊協定會為工作嘗試寫入的每個檔案消耗少量記憶體,直到工作得到認可或中止為止。在大多數任務中,記憶體的消耗量極少。

在 EMRFS Spark 驅動程式上,S3 最佳化的提交通訊協定需要記憶體來儲存每個已提交檔案的中繼資料資訊,直到工作得到認可或中止為止。在大多數作業中,會忽略預設 Spark 驅動程式記憶體設定。

對於具有寫入大量檔案之長時間執行任務的作業,遞交通訊協定耗用的記憶體量可能會很明顯,並需要調整配置給 Spark,特別是 Spark 執行器的記憶體。您可以使用 spark.driver.memory 屬性調整 Spark 驅動程式的記憶體,或使用 spark.executor.memory 屬性調整 Spark 執行器的記憶體。根據準則,寫入 100,000 個檔案的單一任務通常需要額外 100 MB 的記憶體。如需詳細資訊,請參閱 Apache Spark 組態文件中的應用程式屬性