Verwenden von Delta Lake mit Amazon EMR in EKS

Delta Lake ist ein Open-Source-Speicher-Framework für den Aufbau einer Lakehouse-Architektur. Im Folgenden wird gezeigt, wie Sie es für die Verwendung einrichten.

So nutzen Sie Delta Lake mit Amazon EMR in EKS-Anwendungen

Wenn Sie einen Auftrag starten, der ausgeführt wird, um einen Spark-Auftrag in der Anwendungskonfiguration einzureichen, fügen Sie die Delta-Lake-JAR-Dateien hinzu:
```
--job-driver '{"sparkSubmitJobDriver" : {
      "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
```
Anmerkung
Amazon EMR Version 7.0.0 und höher verwendet Delta Lake 3.0, das in umbenannt delta-core.jar wurde. delta-spark.jar Wenn Sie Amazon EMR-Versionen 7.0.0 oder höher verwenden, achten Sie darauf, den richtigen Dateinamen zu verwenden, wie im folgenden Beispiel:
```
--jars local:///usr/share/aws/delta/lib/delta-spark.jar
```

Fügen Sie die zusätzliche Delta Lake-Konfiguration hinzu und verwenden Sie AWS Glue Data Catalog als Ihren Metastore.


--configuration-overrides '{
        "applicationConfiguration": [
        {
          "classification" : "spark-defaults", 
          "properties" : {
            "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", 
            "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog",
"spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" 
           }
        }]}'

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Tutorials

Verwenden von Iceberg

Verwenden von Delta Lake mit Amazon EMR in EKS

So nutzen Sie Delta Lake mit Amazon EMR in EKS-Anwendungen

Anmerkung