Hudi CLI を使用する
Hudi CLI を使用して Hudi データセットを管理し、コミット、ファイルシステム、統計などに関する情報を表示できます。CLI を使用して、手動で圧縮を実行したり、圧縮をスケジュールしたり、スケジュールされた圧縮をキャンセルしたりすることもできます。詳細については、Apache Hudi ドキュメントの「Interacting via CLI
Hudi CLI を起動してデータセットに接続するには
-
SSH を使用してマスターノードに接続します。詳細については、「Amazon EMR 管理ガイド」の「SSH を使用してマスターノードに接続する」を参照してください。
-
コマンドラインで「
/usr/lib/hudi/cli/bin/hudi-cli.sh
」と入力します。コマンドプロンプトが
hudi->
に変わります。 -
以下のコードを入力して、データセットに接続します。
s3://DOC-EXAMPLE-BUCKET/myhudidataset
は、処理するデータセットへのパスに置き換えます。使用する値は、前の例で設定した値と同じです。connect --path
s3://DOC-EXAMPLE-BUCKET/myhudidataset
以下の例に示すように、コマンドプロンプトが変わって、接続されているデータセットが表示されます。
hudi:
myhudidataset
->