步驟 2:檢查環境 - Amazon EMR

步驟 2:檢查環境

Amazon EMR 是作為 Web 服務和開放原始碼軟體生態系統的一部分運作。影響這些相依性的一切都會影響 Amazon EMR 的效能。

檢查是否發生服務中斷

Amazon EMR 在內部使用多個 Amazon Web Services。它在 Amazon EC2 上執行虛擬伺服器,在 Amazon S3 上儲存資料和指令碼,並向 CloudWatch 報告指標。中斷這些服務的事件很少見,但一旦發生,可能會導致 Amazon EMR 發生問題。

在您繼續之前,請參閱服務運作狀態儀表板。檢查您啟動叢集的區域,以查看這些服務中是否有中斷事件。

檢查用量限制

如果您要啟動大型叢集,已同時啟動許多叢集,或者您是與其他使用者共用 AWS 帳戶 的使用者,則叢集可能出現故障,因為您超出了 AWS 服務限制。

Amazon EC2 將單一 AWS 區域上執行的虛擬伺服器執行個體數量限制為 20 個隨需或預留執行個體。如果您啟動的叢集具有超過 20 個節點,或啟動的叢集導致 AWS 帳戶 上作用中的 EC2 執行個體總數超過 20,則此叢集將無法啟動所需的所有 EC2 執行個體,並且可能會失敗。發生這種情況時,Amazon EMR 會傳回 EC2 QUOTA EXCEEDED 錯誤。您可以透過提交請求增加 Amazon EC2 執行個體限制申請,來請求 AWS 增加您可以在帳戶中執行的 EC2 執行個體數量。

另一件可能導致您超出用量限制的事情是叢集終止和釋放其所有資源之間的延遲。視組態而定,叢集可能需要 5-20 分鐘時間才會完全終止並釋出配置的資源。如果您在嘗試啟動叢集時收到了 EC2 QUOTA EXCEEDED 錯誤,原因可能是最近終止的叢集尚未釋出資源。在此情況下,您可以請求增加 Amazon EC2 配額,或等待二十分鐘再重新啟動叢集。

Amazon S3 會將帳戶上建立的儲存貯體數量限制為 100。如果您的叢集建立的新儲存貯體超過此限制,則儲存貯體建立將會失敗,且可能導致叢集失敗。

檢查發行版本

將您用於啟動叢集的發行標籤與最新的 Amazon EMR 版本進行比較。Amazon EMR 的每個版本都會有所改進,例如新的應用程式、新功能、修補程式和錯誤修正。影響叢集的問題可能已經在最新的發行版本中獲得解決。如果可以,請使用最新版本重新執行您的叢集。

檢查 Amazon VPC 子網路組態

如果您的叢集是在 Amazon VPC 子網路中啟動的,則需要如 設定聯網 中所述設定此子網路。此外,請檢查您在其中啟動叢集的子網路是否有足夠的可用彈性 IP 地址,以便為叢集中的每個節點指派地址。