Apache Spark - Amazon EMR

英語の翻訳が提供されている場合で、内容が矛盾する場合には、英語版がオリジナルとして取り扱われます。翻訳は機械翻訳により提供されています。

Apache Spark

Apache Spark は、Amazon EMR クラスターを使用した機械学習、ストリーム処理、またはグラフ分析に役立つ分散処理フレームワークおよびプログラミングモデルです。Spark は、Apache Hadoop と同様に、ビッグデータのワークロードを処理するために一般的に使用されているオープンソースの分散処理システムです。ただし、Spark には Hadoop MapReduce との大きな違いがいくつかあります。Spark は、最適化された Directed Acyclic Graph (DAG) 実行エンジンを備えており、データをインメモリにアクティブにキャッシュするため、特に特定のアルゴリズムやインタラクティブクエリの場合にパフォーマンスが向上します。

Spark アプリケーションは、Scala、Java、および Python をネイティブでサポートしています。また、SQL (Spark SQL)、機械学習 (MLlib)、ストリーム処理 (Spark Streaming)、グラフ処理 (GraphX) 用の緊密に統合されたライブラリもいくつか含まれています。これらのツールを使用すると、さまざまなユースケースで Spark フレームワークを活用しやすくなります。

Spark は、他の Hadoop アプリケーションと同時に EMR クラスターにインストールすることができ、EMR ファイルシステム (EMRFS) を利用して Amazon S3 のデータに直接アクセスすることができます。Hive は Spark と統合されているため、HiveContext オブジェクトを使用することで、Spark を使用して Hive スクリプトを実行することもできます。Hive コンテキストは、spark-shell に sqlContext として含められます。

Spark で EMR クラスターを設定し、サンプルデータセットを分析するチュートリアルの例については、AWS ニュースブログの「New — Apache Spark on Amazon EMR」を参照してください。

Amazon EMR で Spark を使用した機械学習の例を確認するには、AWS ビッグデータブログの「Large-Scale Machine Learning with Spark on Amazon EMR」を参照してください。

重要

Apache Spark バージョン 2.3.1 は、Amazon EMR リリース 5.16.0 以降から、CVE-2018-8024CVE-2018-1334 に対応しています。以前のバージョンの Spark をバージョン 2.3.1 以降に移行することをお勧めします。

次の表は、Amazon EMR 6.x シリーズの最新リリースに含まれている Spark のバージョンと、Amazon EMR で Spark と共にインストールされるコンポーネントを示しています。

このリリースで Spark と共にインストールされるコンポーネントのバージョンについては、リリース 6.0.0 のコンポーネントバージョンを参照してください。

emr-6.0.0 の Spark バージョン情報
Amazon EMR リリースラベル Spark バージョン Spark でインストールされるコンポーネント

emr-6.0.0

Spark 2.4.4

aws-sagemaker-spark-sdk、emrfs、emr-goodies、emr-ddb、emr-s3-select、hadoop-client、hadoop-hdfs-datanode、hadoop-hdfs-library、hadoop-hdfs-namenode、hadoop-httpfs-server、hadoop-kms-server、hadoop-yarn-nodemanager、hadoop-yarn-resourcemanager、hadoop-yarn-timeline-server、hudi、livy-server、nginx、r、spark-client、spark-history-server、spark-on-yarn、spark-yarn-slave

次の表は、Amazon EMR 5.x シリーズの最新リリースに含まれている Spark のバージョンと、Amazon EMR で Spark と共にインストールされるコンポーネントを示しています。

このリリースで Spark と共にインストールされるコンポーネントのバージョンについては、リリース 5.30.1 のコンポーネントバージョンを参照してください。

Spark emr-5.30.1 のバージョン情報
Amazon EMR リリースラベル Spark バージョン Spark でインストールされるコンポーネント

emr-5.30.1

Spark 2.4.5

aws-sagemaker-spark-sdk、emrfs、emr-goodies、emr-ddb、emr-s3-select、hadoop-client、hadoop-hdfs-datanode、hadoop-hdfs-library、hadoop-hdfs-namenode、hadoop-httpfs-server、hadoop-kms-server、hadoop-yarn-nodemanager、hadoop-yarn-resourcemanager、hadoop-yarn-timeline-server、hudi、livy-server、nginx、r、spark-client、spark-history-server、spark-on-yarn、spark-yarn-slave