Hudi CLI を使用する - Amazon EMR

Hudi CLI を使用する

Hudi CLI を使用して Hudi データセットを管理し、コミット、ファイルシステム、統計などに関する情報を表示できます。CLI を使用して、手動で圧縮を実行したり、圧縮をスケジュールしたり、スケジュールされた圧縮をキャンセルしたりすることもできます。詳細については、Apache Hudi ドキュメントの「Interacting via CLI」を参照してください。

Hudi CLI を起動してデータセットに接続するには
  1. SSH を使用してマスターノードに接続します。詳細については、「Amazon EMR 管理ガイド」の「SSH を使用してマスターノードに接続する」を参照してください。

  2. コマンドラインで「/usr/lib/hudi/cli/bin/hudi-cli.sh」と入力します。

    コマンドプロンプトが hudi-> に変わります。

  3. 以下のコードを入力して、データセットに接続します。s3://DOC-EXAMPLE-BUCKET/myhudidataset は、処理するデータセットへのパスに置き換えます。使用する値は、前の例で設定した値と同じです。

    connect --path s3://DOC-EXAMPLE-BUCKET/myhudidataset

    以下の例に示すように、コマンドプロンプトが変わって、接続されているデータセットが表示されます。

    hudi:myhudidataset->