Aktivieren Sie den S3-optimierten Committer für Amazon EMR 5.19.0 - Amazon EMR

Aktivieren Sie den S3-optimierten Committer für Amazon EMR 5.19.0

Wenn Sie Amazon EMR 5.19.0 verwenden, können Sie die Eigenschaft spark.sql.parquet.fs.optimized.committer.optimization-enabled manuell auf true einstellen, wenn Sie einen Cluster erstellen, oder aus Spark heraus, wenn Sie Amazon EMR verwenden.

Aktivieren des S3-optimierten EMRFS-Committers beim Erstellen eines Clusters

Verwenden Sie die Konfigurationsklassifizierung spark-defaults, um die spark.sql.parquet.fs.optimized.committer.optimization-enabled-Eigenschaften auf true festzulegen. Weitere Informationen finden Sie unter Anwendungen konfigurieren.

Aktivieren des S3-optimierten EMRFS-Committers über Spark

Sie können spark.sql.parquet.fs.optimized.committer.optimization-enabled auf true festlegen, indem Sie dies in einer SparkConf fest kodieren, als --conf-Parameter in der Spark-Shell übergeben, die Tools spark-submit bzw. spark-sql verwenden oder dies in conf/spark-defaults.conf angeben. Weiter Informationen finden Sie unter Spark-Konfiguration in der Apache-Spark-Dokumentation.

Im folgenden Beispiel wird gezeigt, wie Sie den Committer während der Ausführung eines spark-sql-Befehls aktivieren.

spark-sql \ --conf spark.sql.parquet.fs.optimized.committer.optimization-enabled=true \ -e "INSERT OVERWRITE TABLE target_table SELECT * FROM source_table;"