Criar um cluster do Iceberg Inicializar uma sessão do Trino para Iceberg Gravar em uma tabela do Iceberg Ler em uma tabela do Iceberg Considerações sobre o uso do Iceberg com o Trino

Usar um cluster do Iceberg com o Trino

Desde a versão 6.6.0 do Amazon EMR, você pode usar o Iceberg com o cluster do Trino.

Neste tutorial, você usa o AWS CLI para trabalhar com o Iceberg em um cluster Trino do Amazon EMR. Para usar o console para criar um cluster com o Iceberg instalado, siga as etapas em Criar um data lake no Apache Iceberg usando o Amazon Athena, o Amazon EMR e o AWS Glue.

Criar um cluster do Iceberg

Para usar o Iceberg no Amazon EMR com AWS CLI o, primeiro crie um cluster com as etapas a seguir. Para obter informações sobre como especificar a classificação do Iceberg usando o AWS CLI, consulte Forneça uma configuração usando o AWS CLI ao criar um cluster ou. Fornecer uma configuração usando o SDK do Java ao criar um cluster

Crie um configurations.json arquivo com o conteúdo a seguir. Por exemplo, se você quiser usar a metastore do Hive como catálogo, o arquivo deverá ter o conteúdo a seguir.


[
  {
    "Classification": "trino-connector-iceberg",
    "Properties": {
      "connector.name": "iceberg",
      "hive.metastore.uri": "thrift://localhost:9083"
    }
  }
]

Se você quiser usar o AWS Glue Data Catalog como sua loja, seu arquivo deve ter o seguinte conteúdo.


[
  {
    "Classification": "trino-connector-iceberg",
    "Properties": {
      "connector.name": "iceberg",
      "iceberg.catalog.type": "glue"
    }
  }
]

Crie um cluster com a configuração a seguir, substituindo o exemplo de caminho de bucket e nome de chave do Amazon S3 pelos seus próprios.


aws emr create-cluster --release-label emr-6.7.0 \
--applications Name=Trino \
--region us-east-1 \
--name My_Trino_Iceberg_Cluster \
--log-uri s3://amzn-s3-demo-bucket \
--configurations file://configurations.json \
--instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType=c3.4xlarge InstanceGroupType=CORE,InstanceCount=3,InstanceType=c3.4xlarge \ 
--use-default-roles \
--ec2-attributes KeyName=<key-name>

Inicializar uma sessão do Trino para Iceberg

Para inicializar uma sessão no Trino, execute o comando a seguir.


trino-cli --catalog iceberg

Gravar em uma tabela do Iceberg

Crie e grave na tabela com os comandos SQL a seguir.


trino> SHOW SCHEMAS;
trino> CREATE TABLE default.iceberg_table (
            id int,
            data varchar,
            category varchar)
       WITH (
            format = 'PARQUET',
            partitioning = ARRAY['category', 'bucket(id, 16)'],
            location = 's3://amzn-s3-demo-bucket/<prefix>')
          
trino> INSERT INTO default.iceberg_table VALUES (1,'a','c1'), (2,'b','c2'), (3,'c','c3');

Ler em uma tabela do Iceberg

Para ler a tabela do Iceberg, execute o comando a seguir.


trino> SELECT * from default.iceberg_table;

Considerações sobre o uso do Iceberg com o Trino

O Amazon EMR 6.5 não é nativamente compatível com o catálogo do Iceberg com o Trino. O Trino precisa do Iceberg v0.11, por isso recomendamos iniciar um cluster do Amazon EMR para Trino separado do cluster do Spark e incluir o Iceberg v0.11 neste cluster.
Ao usar o AWS Glue como um catálogo para o Iceberg, certifique-se de que o banco de dados no qual você está criando uma tabela exista no AWS Glue. Se você estiver usando serviços como AWS Lake Formation e não conseguir carregar o catálogo, verifique se você tem acesso adequado ao serviço para executar o comando.
A integração com o Iceberg Glue não funciona com o catálogo de armazenamento gerenciado do Redshift.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Usar um cluster do Iceberg com o Spark

Usar um cluster do Iceberg com o Flink