Lanzamiento de una aplicación de Spark mediante la integración de Amazon Redshift para Apache Spark - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Lanzamiento de una aplicación de Spark mediante la integración de Amazon Redshift para Apache Spark

Para usar la integración, debe pasar las dependencias de Spark Redshift requeridas con su trabajo de Spark. Debe utilizar --jars para incluir bibliotecas relacionadas con el conector de Redshift. Para ver otras ubicaciones de archivos compatibles con la opción --jars, consulte la sección Administración avanzada de dependencias de la documentación de Apache Spark.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Para lanzar una aplicación Spark con la integración de Amazon Redshift para Apache Spark EMR en Amazon en la EKS versión 6.9.0 o posterior, utilice el siguiente comando de ejemplo. Tenga en cuenta que las rutas que aparecen en la lista de la --conf spark.jars opción son las rutas predeterminadas de los JAR archivos.

aws emr-containers start-job-run \ --virtual-cluster-id cluster_id \ --execution-role-arn arn \ --release-label emr-6.9.0-latest\ --job-driver '{ "sparkSubmitJobDriver": { "entryPoint": "s3://script_path", "sparkSubmitParameters": "--conf spark.kubernetes.file.upload.path=s3://upload_path --conf spark.jars= /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar, /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar" } }'