Hudi CLI 사용 - Amazon EMR

Hudi CLI 사용

Hudi CLI를 사용하여 Hudi 데이터 세트를 관리하고 커밋, 파일 시스템, 통계 등에 대한 정보를 볼 수 있습니다. 또한 CLI를 사용하여 수동으로 압축을 수행하거나, 압축을 예약하거나, 예약된 압축을 취소할 수도 있습니다. 자세한 내용은 Apache Hudi 설명서에서 Interacting via CLI를 참조하세요.

Hudi CLI를 시작하고 데이터 세트에 연결하는 방법
  1. SSH를 사용하여 마스터 노드에 연결합니다. 자세한 내용은 Amazon EMR 관리 안내서에서 SSH를 사용하여 프라이머리 노드에 연결을 참조하세요.

  2. 명령줄에 /usr/lib/hudi/cli/bin/hudi-cli.sh를 입력합니다.

    명령 프롬프트가 이렇게 바뀝니다. hudi->

  3. 다음 코드를 입력하여 데이터 세트에 연결합니다. s3://DOC-EXAMPLE-BUCKET/myhudidataset를 작업하려는 데이터 세트의 경로로 바꿉니다. 여기서 사용하는 값은 이전 예에서 설정한 값과 동일합니다.

    connect --path s3://DOC-EXAMPLE-BUCKET/myhudidataset

    다음 예와 같이 연결한 데이터 세트를 포함하도록 명령 프롬프트가 변경됩니다.

    hudi:myhudidataset->