建立已安裝 Hudi 的叢集 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立已安裝 Hudi 的叢集

使用 Amazon EMR 版本 5.28.0 及更高版本,Amazon 在EMR安裝 Spark,蜂巢或普雷斯托時默認安裝 Hudi 組件。若要在 Amazon 上使用 HudiEMR,請建立已安裝下列一或多個應用程式的叢集:

  • Hadoop

  • Hive

  • Spark

  • Presto

  • Flink

您可以使用 AWS Management Console AWS CLI、或 Amazon 建立叢集EMRAPI。

  1. 導覽至新的 Amazon EMR 主控台,然後從側邊導覽選取「切換至舊主控台」。如需有關切換至舊主控台時預期情況的詳細資訊,請參閱使用舊主控台

  2. 選擇 Create cluster (建立叢集),然後選擇 Go to advanced options (前往進階選項)

  3. 在「軟體組態」下,對於發行版本,選擇 emr-5.28.0 或更新版本,然後選擇 HadoopHiveSparkPrestoTez 以及叢集需要的其他應用程式。

  4. 視您的應用程式需要設定其他選項,然後選擇 Next (下一步)

  5. 視需要設定 Hardware (硬體)General cluster settings (一般叢集設定) 選項。

  6. 對於安全性選項,我們建議您選取可用來連接至主節點命令列的 EC2key pair SSH。這使您可以運行本指南中描述的 Spark shell CLI 命令,Hive CLI 命令和 Hudi 命令。

  7. 視需要設定其他安全選項,然後選擇 Create cluster (建立叢集)