Avvio di un'applicazione Spark utilizzando l'integrazione di Amazon Redshift per Apache Spark
A partire dalla versione 6.4 alla 6.9 di Amazon EMR, è necessario utilizzare l'opzione --jars
o --packages
per specificare quale dei seguenti file JAR si desidera utilizzare. L'opzione --jars
specifica le dipendenze memorizzate localmente, in HDFS o utilizzando HTTP/S. Per visualizzare altre posizioni dei file supportate dall'opzione --jars
, consulta la sezione Advanced Dependency Management--packages
specifica le dipendenze memorizzate nel repository pubblico Maven.
-
spark-redshift.jar
-
spark-avro.jar
-
RedshiftJDBC.jar
-
minimal-json.jar
Le versioni 6.10.0 e successive di Amazon EMR non richiedono la dipendenza minimal-json.jar
e installano automaticamente le altre dipendenze su ciascun cluster per impostazione predefinita. Gli esempi seguenti mostrano come avviare un'applicazione Spark con l'integrazione di Amazon Redshift per Apache Spark.