Apache Spark용 Amazon Redshift 통합을 사용하여 Spark 애플리케이션 시작 - 아마존 EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Apache Spark용 Amazon Redshift 통합을 사용하여 Spark 애플리케이션 시작

Amazon EMR 릴리스 6.4~6.9의 경우 --jars 또는 --packages 옵션을 사용하여 다음 JAR 파일 중 사용할 파일을 지정해야 합니다. --jars옵션은 로컬에 저장되거나 HTTP /S를 사용하여 저장된 종속성을 지정합니다. --jars 옵션에서 HDFS 지원하는 다른 파일 위치를 보려면 Spark 설명서의 고급 종속성 관리를 참조하십시오. --packages 옵션은 퍼블릭 Maven 리포지토리에 저장된 종속성을 지정합니다.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Amazon EMR 릴리스 6.10.0 이상에서는 minimal-json.jar 종속성이 필요하지 않으며 기본적으로 다른 종속성을 각 클러스터에 자동으로 설치합니다. 다음 예제에서는 Apache Spark용 Amazon Redshift 통합을 사용하여 Spark 애플리케이션을 시작하는 방법을 보여줍니다.

Amazon EMR 6.10.0 +

다음 예제는 Amazon EMR 릴리스 6.10 이상에서 spark-redshift 커넥터를 사용하여 Spark 애플리케이션을 시작하는 방법을 보여줍니다.

spark-submit my_script.py
Amazon EMR 6.4.0 - 6.9.x

Amazon EMR 릴리스 6.4~6.9에서 spark-redshift 커넥터를 사용하여 Spark 애플리케이션을 실행하려면 다음 예와 같이 --jars or --packages 옵션을 사용해야 합니다. --jars옵션과 함께 나열된 경로가 파일의 기본 경로라는 점에 유의하십시오. JAR

spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py