Hudi CLI 사용

Hudi CLI를 사용하여 Hudi 데이터 세트를 관리하고 커밋, 파일 시스템, 통계 등에 대한 정보를 볼 수 있습니다. 또한 CLI를 사용하여 수동으로 압축을 수행하거나, 압축을 예약하거나, 예약된 압축을 취소할 수도 있습니다. 자세한 내용은 Apache Hudi 설명서에서 Interacting via CLI를 참조하세요.

Hudi CLI를 시작하고 데이터 세트에 연결하는 방법

SSH를 사용하여 마스터 노드에 연결합니다. 자세한 내용은 Amazon EMR 관리 안내서에서 SSH를 사용하여 프라이머리 노드에 연결을 참조하세요.
명령줄에 /usr/lib/hudi/cli/bin/hudi-cli.sh를 입력합니다.

명령 프롬프트가 이렇게 바뀝니다. hudi->
다음 명령을 사용하여 데이터세트에 연결합니다. s3://amzn-s3-demo-bucket/myhudidataset를 작업하려는 데이터세트의 경로로 바꿉니다. 여기서 사용하는 값은 이전 예에서 설정한 값과 동일합니다.
```
connect --path s3://amzn-s3-demo-bucket/myhudidataset
```
다음 예와 같이 연결한 데이터 세트를 포함하도록 명령 프롬프트가 변경됩니다.
```
hudi:myhudidataset->
```

기본적으로 Amazon EMR 릴리스 hudi-cli.sh 7.3.0~7.8.0의 스크립트는를 사용합니다hudi-cli-bundle.jar. 문제가 발생하면 다음 명령을 사용하여 클래식 Hudi CLI로 다시 전환할 수 있습니다.


/usr/lib/hudi/cli/bin/hudi-cli.sh --cliBundle false

이 명령은 hudi-cli.sh 스크립트를 실행하고, --cliBundle 플래그를 설정하며, 번들에 포함된 JAR 대신 개별 JAR 파일을 사용하도록 CLI에 지시합니다. 기본적으로 --cliBundle은 true로 설정되어 있습니다. 즉, CLI는 대신 번들에 포함된 JAR을 사용합니다.

Amazon EMR 7.9.0 이상 릴리스 사용

참고

EMR 릴리스 7.9.0 이상에서는 hudi-cli.sh 스크립트가 더 이상 사용되지 않습니다. Amazon EMR 릴리스 7.9.0 이상에서는 hudi-cli-bundle.jar을 사용합니다.

Hudi CLI를 시작하고 데이터 세트에 연결하려면:

SSH를 사용하여 마스터 노드에 연결합니다. 자세한 내용은 Amazon EMR 관리 안내서에서 SSH를 사용하여 프라이머리 노드에 연결을 참조하세요.
명령줄에서 /usr/lib/hudi/cli-bundle/bin/hudi-cli-with-bundle.sh를 입력하거나 hudi-cli-with-bundle 또는 >hudi-cli를 입력합니다.

명령 프롬프트가 hudi- >로 변경됩니다.
다음 명령을 사용하여 데이터세트에 연결합니다. s3://amzn-s3-demo-bucket/myhudidataset를 작업하려는 데이터세트의 경로로 바꿉니다. 여기서 사용하는 값은 이전 예에서 설정한 값과 동일합니다.
```
connect --path s3://amzn-s3-demo-bucket/myhudidataset
```
다음 예와 같이 연결한 데이터 세트를 포함하도록 명령 프롬프트가 변경됩니다.
```
hudi:myhudidataset->
```

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Hudi 데이터 세트 작업

Hudi 릴리스 기록