Lanzamiento de una aplicación de Spark mediante la integración de Amazon Redshift para Apache Spark - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Lanzamiento de una aplicación de Spark mediante la integración de Amazon Redshift para Apache Spark

Para las EMR versiones 6.4 a 6.9 de Amazon, debes usar la --packages opción --jars o para especificar cuáles de los siguientes JAR archivos quieres usar. La --jars opción especifica las dependencias almacenadas localmenteHDFS, en /o mediante HTTP /S. Para ver otras ubicaciones de archivos compatibles con --jars esta opción, consulta la sección Gestión avanzada de dependencias en la documentación de Spark. La opción --packages especifica las dependencias almacenadas en el repositorio público de Maven.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

EMRLas versiones 6.10.0 y posteriores de Amazon no requieren la minimal-json.jar dependencia e instalan automáticamente las demás dependencias en cada clúster de forma predeterminada. En los siguientes ejemplos se muestra cómo lanzar una aplicación de Spark con la integración de Amazon Redshift para Apache Spark.

Amazon EMR 6.10.0 +

El siguiente ejemplo muestra cómo lanzar una aplicación Spark con el spark-redshift conector con las EMR versiones 6.10 y posteriores de Amazon.

spark-submit my_script.py
Amazon EMR 6.4.0 - 6.9.x

Para lanzar una aplicación Spark con el spark-redshift conector en las EMR versiones 6.4 a 6.9 de Amazon, debes usar la --packages opción --jars o, como se muestra en el siguiente ejemplo. Ten en cuenta que las rutas que aparecen en la lista de la --jars opción son las rutas predeterminadas de los JAR archivos.

spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py