Hudi CLI 사용
Hudi CLI를 사용하여 Hudi 데이터 세트를 관리하고 커밋, 파일 시스템, 통계 등에 대한 정보를 볼 수 있습니다. 또한 CLI를 사용하여 수동으로 압축을 수행하거나, 압축을 예약하거나, 예약된 압축을 취소할 수도 있습니다. 자세한 내용은 Apache Hudi 설명서에서 Interacting via CLI
Hudi CLI를 시작하고 데이터 세트에 연결하는 방법
-
SSH를 사용하여 마스터 노드에 연결합니다. 자세한 내용은 Amazon EMR 관리 안내서에서 SSH를 사용하여 프라이머리 노드에 연결을 참조하세요.
-
명령줄에
/usr/lib/hudi/cli/bin/hudi-cli.sh
를 입력합니다.명령 프롬프트가 이렇게 바뀝니다.
hudi->
-
다음 코드를 입력하여 데이터 세트에 연결합니다.
s3://DOC-EXAMPLE-BUCKET/myhudidataset
를 작업하려는 데이터 세트의 경로로 바꿉니다. 여기서 사용하는 값은 이전 예에서 설정한 값과 동일합니다.connect --path
s3://DOC-EXAMPLE-BUCKET/myhudidataset
다음 예와 같이 연결한 데이터 세트를 포함하도록 명령 프롬프트가 변경됩니다.
hudi:
myhudidataset
->