Apache Spark - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Apache Spark

Apache Spark merupakan kerangka pemrosesan terdistribusi dan model pemrograman yang membantu Anda melakukan pembelajaran mesin, pemrosesan aliran, atau analitik grafik menggunakan kluster Amazon EMR. Mirip dengan Apache Hadoop, Spark merupakan sistem pemrosesan terdistribusi sumber terbuka, yang biasa digunakan untuk beban kerja big data. Namun, Spark memiliki beberapa perbedaan penting dari Hadoop MapReduce. Spark memiliki dioptimalkan diarahkan asiklik mesin eksekusi graf (DAG) dan aktif cache data dalam memori, yang dapat meningkatkan kinerja, terutama untuk algoritma tertentu dan query interaktif.

Spark native mendukung aplikasi yang ditulis dalam Scala, Python, dan Java. Hal ini juga mencakup beberapa pustaka terintegrasi untuk SQL (Spark SQL), pembelajaran mesin (MLib), pemrosesan aliran (Spark Streaming), dan pengolahan grafik (Graph). Alat-alat ini membuatnya lebih mudah untuk memanfaatkan kerangka Spark untuk berbagai kasus penggunaan.

Anda dapat menginstal Spark pada cluster Amazon EMR bersama dengan aplikasi Hadoop lainnya, dan juga dapat memanfaatkan sistem file EMR (EMRFS) untuk langsung mengakses data di Amazon S3. Hive juga terintegrasi dengan Spark sehingga Anda dapat menggunakan HiveContext objek untuk menjalankan skrip Hive menggunakan Spark. Sebuah konteks Hive termasuk dalam percikan-shell sebagai sqlContext.

Untuk contoh tutorial tentang menyiapkan cluster EMR dengan Spark dan menganalisis kumpulan data sampel, lihat Tutorial: Memulai dengan Amazon EMR di blogAWS Berita.

penting

Apache Spark versi 2.3.1, tersedia mulai dengan Amazon EMR rilis versi 5.16.0, mengatasi CVE-2018-8024 dan CVE-2018-1334. Kami merekomendasikan Anda memigrasi versi Spark sebelumnya ke Spark versi 2.3.1 atau versi yang lebih baru.

Tabel berikut berisi daftar versi Spark termasuk dalam rilis terbaru dari Amazon EMR 6.x series, bersama dengan komponen yang Amazon EMR menginstal dengan Spark.

Untuk versi komponen yang diinstal dengan Spark dalam rilis ini, lihat Rilis 6.8.0 Versi Komponen.

Informasi versi Spark untuk emr-6.8.0
Label Rilis Amazon EMR Versi Spark Komponen Dipasang Dengan Spark

emr-6.8.0

Spark 3.3.0

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

catatan

Amazon EMR rilis 6.8.0 hadir dengan Apache Spark 3.3.0. Rilis Spark ini menggunakan Apache Log4j 2 danlog4j2.properties file untuk mengkonfigurasi Log4j dalam proses Spark. Jika Anda menggunakan Spark di klaster atau membuat klaster EMR dengan parameter konfigurasi khusus, dan Anda ingin meningkatkan ke rilis Amazon EMR 6.8.0, Anda harus bermigrasi ke klasifikasispark-log4j2 konfigurasi baru dan format kunci untuk Apache Log4j 2. Untuk informasi selengkapnya, lihat Migrasi dari Apache Log4j 1.x ke Log4j 2.x.

Tabel berikut berisi daftar versi Spark termasuk dalam rilis terbaru dari Amazon EMR 5.x series, bersama dengan komponen yang Amazon EMR menginstal dengan Spark.

Untuk versi komponen yang diinstal dengan Spark dalam rilis ini, lihat Rilis 5.36.0 Versi Komponen.

Informasi versi Spark untuk emr-5.36.0
Label Rilis Amazon EMR Versi Spark Komponen Dipasang Dengan Spark

emr-5.36.0

Spark 2.4.8

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave