Avvio di un'applicazione Spark utilizzando l'integrazione di Amazon Redshift per Apache Spark - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Avvio di un'applicazione Spark utilizzando l'integrazione di Amazon Redshift per Apache Spark

A partire dalla versione 6.4 alla 6.9 di Amazon EMR, è necessario utilizzare l'opzione --jars o --packages per specificare quale dei seguenti file JAR si desidera utilizzare. L'opzione --jars specifica le dipendenze memorizzate localmente, in HDFS o utilizzando HTTP/S. Per visualizzare altre posizioni dei file supportate dall'opzione --jars, consulta la sezione Advanced Dependency Management (Gestione avanzata delle dipendenze) nella documentazione di Spark. L'opzione --packages specifica le dipendenze memorizzate nel repository pubblico Maven.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Le versioni 6.10.0 e successive di Amazon EMR non richiedono la dipendenza minimal-json.jar e installano automaticamente le altre dipendenze su ciascun cluster per impostazione predefinita. Gli esempi seguenti mostrano come avviare un'applicazione Spark con l'integrazione di Amazon Redshift per Apache Spark.

Amazon EMR 6.10.0 +

L'esempio seguente mostra come avviare un'applicazione Spark con il connettore spark-redshift con le versioni 6.10 e successive di Amazon EMR.

spark-submit my_script.py
Amazon EMR 6.4.0 - 6.9.x

Per avviare un'applicazione Spark con un connettore spark-redshift dalla versione 6.4 alla 6.9 di Amazon EMR è necessario utilizzare l'opzione --jars o --packages, come mostrato nell'esempio seguente. Come vedrai, i percorsi elencati con l'opzione --jars sono i percorsi predefiniti per i file JAR.

spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py