Erstellen eines Cluster mit installierter Hudi-Anwendung - Amazon EMR

Erstellen eines Cluster mit installierter Hudi-Anwendung

Ab der Amazon-EMR-Version 5.28.0 installiert Amazon EMR standardmäßig Hudi-Komponenten, wenn Spark, Hive oder Presto installiert wird. Um Hudi in Amazon EMR zu verwenden, erstellen Sie einen Cluster mit den folgenden installierten Anwendungen:

  • Hadoop

  • Hive

  • Spark

  • Presto

  • Flink

Sie können einen Cluster mithilfe der AWS Management Console, der AWS CLI oder der Amazon-EMR-API erstellen.

  1. Navigieren Sie zur neuen Amazon-EMR-Konsole und wählen Sie in der Seitennavigation die Option Zur alten Konsole wechseln aus. Weitere Informationen darüber, was Sie erwartet, wenn Sie zur alten Konsole wechseln, finden Sie unter Verwenden der alten Konsole.

  2. Wählen Sie Create Cluster (Cluster erstellen) und Go to advanced options (Zu erweiterten Optionen) aus.

  3. Wählen Sie unter „Software Configuration (Softwarekonfiguration)“ emr-5.28.0 oder höher für Release aus und wählen Sie Hadoop, Hive, Spark, Presto und Tez zusammen mit anderen Anwendungen aus, die Ihr Cluster benötigt.

  4. Konfigurieren Sie nach Bedarf andere Optionen für Ihre Anwendung und wählen Sie dann Next (Weiter).

  5. Konfigurieren Sie die Optionen für Hardware und General cluster settings (Allgemeine Clustereinstellungen) ganz nach Wunsch.

  6. Für Security Options (Sicherheitsoptionen) empfehlen wir, ein EC2 key pair (EC2-Schlüsselpaar) auszuwählen, mit dem Sie mithilfe von SSH eine Verbindung mit der Befehlszeile des Master-Knotens herstellen können. Auf diese Weise können Sie die in diesem Handbuch beschriebenen Spark-Shell-Befehle, Hive-CLI-Befehle und Hudi-CLI-Befehle ausführen.

  7. Wählen Sie weitere Sicherheitsoptionen wie gewünscht und wählen Sie anschließend Create cluster (Cluster erstellen) aus.