Iceberg 클러스터 생성 Iceberg용 Trino 세션 초기화 Iceberg 테이블에 쓰기 Iceberg 테이블에서 읽기 Trino에서 Iceberg 사용 시 고려 사항

Trino와 함께 Iceberg 클러스터 사용

Amazon EMR 버전 6.6.0부터 Iceberg를 Trino 클러스터와 함께 사용할 수 있습니다.

이 자습서에서는 AWS CLI 를 사용하여 Amazon EMR Trino 클러스터에서 Iceberg로 작업합니다. 콘솔을 사용하여 Iceberg가 설치된 클러스터를 생성하려면 Build an Apache Iceberg data lake using Amazon Athena, Amazon EMR, and AWS Glue의 단계를 수행합니다.

Iceberg 클러스터 생성

와 함께 Amazon EMR에서 Iceberg를 사용하려면 AWS CLI먼저 다음 단계를 사용하여 클러스터를 생성합니다. 를 사용하여 Iceberg 분류를 지정하는 방법에 대한 자세한 내용은 클러스터를 생성할 AWS CLI 때를 사용하여 구성 제공 또는 섹션을 AWS CLI참조하세요클러스터를 생성할 때 Java SDK를 사용하여 구성 제공.

다음 콘텐츠가 포함된 configurations.json 파일을 생성합니다. 예를 들어 Hive 메타스토어를 카탈로그로 사용하려면 파일에 다음과 같은 콘텐츠가 있어야 합니다.


[
  {
    "Classification": "trino-connector-iceberg",
    "Properties": {
      "connector.name": "iceberg",
      "hive.metastore.uri": "thrift://localhost:9083"
    }
  }
]

AWS Glue 데이터 카탈로그를 스토어로 사용하려면 파일에 다음 콘텐츠가 있어야 합니다.


[
  {
    "Classification": "trino-connector-iceberg",
    "Properties": {
      "connector.name": "iceberg",
      "iceberg.catalog.type": "glue"
    }
  }
]

다음 구성으로 클러스터를 생성하여 예제 Amazon S3 버킷 경로와 키 이름을 사용자의 이름으로 바꿉니다.


aws emr create-cluster --release-label emr-6.7.0 \
--applications Name=Trino \
--region us-east-1 \
--name My_Trino_Iceberg_Cluster \
--log-uri s3://amzn-s3-demo-bucket \
--configurations file://configurations.json \
--instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType=c3.4xlarge InstanceGroupType=CORE,InstanceCount=3,InstanceType=c3.4xlarge \ 
--use-default-roles \
--ec2-attributes KeyName=<key-name>

Iceberg용 Trino 세션 초기화

Trino 세션을 초기화하려면 다음 명령을 실행합니다.


trino-cli --catalog iceberg

Iceberg 테이블에 쓰기

다음 SQL 명령을 사용하여 생성 후 테이블에 작성합니다.


trino> SHOW SCHEMAS;
trino> CREATE TABLE default.iceberg_table (
            id int,
            data varchar,
            category varchar)
       WITH (
            format = 'PARQUET',
            partitioning = ARRAY['category', 'bucket(id, 16)'],
            location = 's3://amzn-s3-demo-bucket/<prefix>')
          
trino> INSERT INTO default.iceberg_table VALUES (1,'a','c1'), (2,'b','c2'), (3,'c','c3');

Iceberg 테이블에서 읽기

Iceberg 테이블에서 읽으려면 다음 명령을 실행합니다.


trino> SELECT * from default.iceberg_table;

Trino에서 Iceberg 사용 시 고려 사항

Amazon EMR 6.5는 기본적으로 Iceberg에 대한 Trino Iceberg 카탈로그 지원을 제공하지 않습니다. Trino에는 Iceberg v0.11이 필요하므로 Spark 클러스터와 별도로 Trino용 Amazon EMR 클러스터를 시작하고 해당 클러스터에 Iceberg v0.11을 포함하는 것이 좋습니다.
AWS Glue를 Iceberg용 카탈로그로 사용하는 경우 테이블을 생성하는 데이터베이스가 AWS Glue에 있는지 확인합니다. AWS Lake Formation 와 같은 서비스를 사용하고 있고 카탈로그를 로드할 수 없는 경우 명령을 실행하기 위해 서비스에 대한 적절한 액세스 권한이 있는지 확인합니다.
Iceberg Glue 통합은 Redshift Managed Storage 카탈로그에서 작동하지 않습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Spark와 함께 Iceberg 클러스터 사용

Flink와 함께 Iceberg 클러스터 사용