設定 Hive 的外部中繼存放區 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定 Hive 的外部中繼存放區

在預設情況下,Hive 會記錄在主節點的檔案系統上 MySQL 資料庫中的中繼存放區資訊。中繼存放區包含描述資料表和在其中建立它的基礎資料,包括分割區名稱和資料類型等等。叢集終止時,所有叢集節點會關閉 (包括主節點)。當發生這種情況時,本機資料會遺失,因為節點檔案系統使用的是暫時性儲存。如果您需要中繼存放區持續保留,您必須建立在叢集以外存在的外部中繼存放區

適用於外部中繼存放區有兩個選項:

注意

如果您使用 Hive 3 並遇到太多 Hive 中繼存放區連線,請調低參數 datanucleus.connectionPool.maxPoolSize 的值或調高資料庫伺服器可處理的連線數量。增加連線數量是由 Hive 計算 JDBC 連線最大數量的方式所致。若要計算效能的最佳值,請參閱 Hive 組態屬性