Verwenden von Delta Lake mit Amazon EMR in EKS - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von Delta Lake mit Amazon EMR in EKS

So nutzen Sie Delta Lake mit Amazon EMR in EKS-Anwendungen
  1. Wenn Sie einen Auftrag starten, der ausgeführt wird, um einen Spark-Auftrag in der Anwendungskonfiguration einzureichen, fügen Sie die Delta-Lake-JAR-Dateien hinzu:

    --job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
  2. Fügen Sie die zusätzliche Delta-Lake-Konfiguration hinzu und verwenden Sie AWS Glue Data Catalog als Ihren Metastore.

    --configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'