Die Hudi-CLI verwenden - Amazon EMR

Die Hudi-CLI verwenden

Sie können mit der Hudi-CLI Hudi-Datensätze verwalten, um Informationen zu Commits, zum Dateisystem, zu Statistiken und mehr anzuzeigen. Sie können mit der CLI auch Komprimierungen manuell durchführen, Komprimierungen planen oder geplante Komprimierungen abbrechen. Weitere Informationen finden Sie unter Dateimanagement in der Apache-Hudi-Dokumentation.

So starten Sie die Hudi-CLI und stellen Sie eine Verbindung mit einem Datensatz her
  1. Verbinden mit dem Master-Knoten über SSH. Weitere Informationen finden Sie unter Mit SSH eine Verbindung zum Hauptknoten herstellen im Verwaltungshandbuch für Amazon EMR.

  2. Geben Sie in die Befehlszeile /usr/lib/hudi/cli/bin/hudi-cli.sh ein.

    Die Eingabeaufforderung ändert sich in hudi->.

  3. Geben Sie den folgenden Code ein, um eine Verbindung mit einem Dataset herzustellen. Ersetzen Sie s3://DOC-EXAMPLE-BUCKET/myhudidataset durch den Pfad zum Datensatz, mit dem Sie arbeiten möchten. Der von uns verwendete Wert entspricht dem Wert, der in früheren Beispielen festgelegt wurde.

    connect --path s3://DOC-EXAMPLE-BUCKET/myhudidataset

    Die Eingabeaufforderung ändert sich, um das Dataset einzuschließen, mit dem Sie verbunden sind, wie im folgenden Beispiel gezeigt.

    hudi:myhudidataset->