Apache Spark
Apache Spark
Spark アプリケーションは、Scala、Java、および Python をネイティブでサポートしています。また、SQL (Spark SQL
Spark は、他の Hadoop アプリケーションと同時に Amazon EMR クラスターにインストールすることができ、EMR ファイルシステム (EMRFS) を利用して Amazon S3 のデータに直接アクセスすることができます。Hive は Spark と統合されているため、HiveContext オブジェクトを使用することで、Spark を使用して Hive スクリプトを実行することもできます。Hive コンテキストは、spark-shell に sqlContext
として含められます。
Spark で EMR クラスターを設定し、サンプルデータセットを分析するチュートリアルの例については、AWS ニュースブログの「Tutorial: Getting started with Amazon EMR」を参照してください。
重要
Apache Spark バージョン 2.3.1 は Amazon EMR リリース 5.16.0 以降で利用でき、CVE-2018-8024
次の表は、Amazon EMR 6.x シリーズの最新リリースに含まれている Spark のバージョンと、Amazon EMR で Spark と共にインストールされるコンポーネントを示しています。
このリリースで Spark と共にインストールされるコンポーネントのバージョンについては、「リリース 6.14.0 のコンポーネントバージョン」を参照してください。
emr-6.14.0 の Spark バージョン情報 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon EMR リリースラベル | Spark バージョン | Spark でインストールされるコンポーネント | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-6.14.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
注記
Amazon EMR リリース 6.8.0 には、Apache Spark 3.3.0 が付属しています。この Spark リリースでは、Apache Log4j 2 と log4j2.properties
ファイルを使用して Spark プロセス内の Log4j を設定します。クラスターで Spark を使用するか、カスタム設定パラメータを使用して EMR クラスターを作成し、Amazon EMR リリース 6.8.0 にアップグレードする場合は、Apache Log4j 2 の新しい spark-log4j2
設定分類とキー形式に移行する必要があります。詳細については、「Apache Log4j 1.x から Log4j 2.x への移行」を参照してください。
次の表は、Amazon EMR 5.x シリーズの最新リリースに含まれている Spark のバージョンと、Amazon EMR で Spark と共にインストールされるコンポーネントを示しています。
このリリースで Spark と共にインストールされるコンポーネントのバージョンについては、「リリース 6.14.0 のコンポーネントバージョン」を参照してください。
emr-5.36.1 の Spark バージョン情報 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon EMR リリースラベル | Spark バージョン | Spark でインストールされるコンポーネント | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-5.36.1 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
トピック
- Spark を使用したクラスターの作成
- Amazon EMR 6.x を使用して Docker で Spark アプリケーションを実行する
- Spark SQL のメタストアとしての AWS Glue Data Catalog の使用
- Spark の設定
- Spark パフォーマンスの最適化
- Spark 結果フラグメントキャッシュ
- Spark 用の Nvidia Spark-RAPIDS アクセラレーターの使用
- Spark シェルにアクセスする
- 機械学習で Amazon SageMaker Spark を使用する
- Spark アプリケーションを作成する
- Amazon S3 で Spark のパフォーマンスを向上させる
- Spark ステップを追加する
- Spark アプリケーション履歴を表示する
- Spark ウェブ UI にアクセスする
- Amazon EMR での Apache Spark 用の Amazon Redshift インテグレーションの使用
- Spark リリース履歴