Lancement d'une application Spark à l'aide de l'intégration Amazon Redshift pour Apache Spark - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Lancement d'une application Spark à l'aide de l'intégration Amazon Redshift pour Apache Spark

Pour les EMR versions 6.4 à 6.9 d'Amazon, vous devez utiliser l'--packagesoption --jars ou pour spécifier lequel des JAR fichiers suivants vous souhaitez utiliser. L'--jarsoption spécifie les dépendances stockées localementHDFS, dans ou à l'aide de HTTP /S. Pour connaître les autres emplacements de fichiers pris en charge par l'--jarsoption, consultez la section Gestion avancée des dépendances dans la documentation de Spark. L'option --packages spécifie les dépendances stockées dans le référentiel public de Maven.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

EMRLes versions 6.10.0 et ultérieures d'Amazon ne nécessitent pas cette minimal-json.jar dépendance et installent automatiquement les autres dépendances sur chaque cluster par défaut. Les exemples suivants montrent comment lancer une application Spark avec l'intégration Amazon Redshift pour Apache Spark.

Amazon EMR 6.10.0 +

L'exemple suivant montre comment lancer une application Spark avec le spark-redshift connecteur avec Amazon EMR versions 6.10 et supérieures.

spark-submit my_script.py
Amazon EMR 6.4.0 - 6.9.x

Pour lancer une application Spark avec le spark-redshift connecteur sur les EMR versions 6.4 à 6.9 d'Amazon, vous devez utiliser l'--packagesoption --jars or, comme le montre l'exemple suivant. Notez que les chemins répertoriés avec l'--jarsoption sont les chemins par défaut pour les JAR fichiers.

spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py