Utilizzo di un cluster Delta Lake con Spark e AWS Glue

Per utilizzare AWS Glue Catalog come Metastore per le tabelle Delta Lake, crea un cluster con i seguenti passaggi. Per informazioni su come specificare la classificazione Delta Lake utilizzando AWS Command Line Interface, consulta Fornire una configurazione utilizzando AWS Command Line Interface quando si crea un cluster o Fornire una configurazione utilizzando Java SDK quando si crea un cluster.

Creazione di un cluster Delta Lake

Creare un file, configurations.json, con i seguenti contenuti:



[{"Classification":"delta-defaults",  
"Properties":{"delta.enabled":"true"}},
{"Classification":"spark-hive-site",
"Properties":{"hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory"}}]

Crea un cluster con la seguente configurazione, sostituendo example Amazon S3 bucket path e subnet ID con i tuoi valori.



aws emr create-cluster 
    --release-label  emr-6.9.0  
    --applications Name=Spark  
    --configurations file://delta_configurations.json 
    --region us-east-1  
    --name My_Spark_Delta_Cluster  
    --log-uri  s3://amzn-s3-demo-bucket/  
    --instance-type m5.xlarge  
    --instance-count 2   
    --service-role EMR_DefaultRole_V2  
    --ec2-attributes  InstanceProfile=EMR_EC2_DefaultRole,SubnetId=subnet-1234567890abcdef0

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Delta Lake con Spark

Considerazioni