Uso de Delta Lake con Amazon EMR en EKS - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de Delta Lake con Amazon EMR en EKS

Para usar Delta Lake con Amazon EMR en aplicaciones de EKS
  1. Cuando inicie una ejecución de trabajo para enviar una tarea de Spark en la configuración de la aplicación, incluya los archivos JAR de Delta Lake:

    --job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
    nota

    Las versiones 7.0.0 y posteriores de Amazon EMR utilizan Delta Lake 3.0, que cambia el nombre a. delta-core.jar delta-spark.jar Si utiliza Amazon EMR versión 7.0.0 o superior, asegúrese de utilizar el nombre de archivo correcto, como en el siguiente ejemplo:

    --jars local:///usr/share/aws/delta/lib/delta-spark.jar
  2. Incluya la configuración adicional de Delta Lake y utilice AWS Glue Data Catalog como su metaalmacén.

    --configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'