Riwayat baru Amazon EMR - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Riwayat baru Amazon EMR

Catatan rilis untuk semua versi rilis Amazon EMR tersedia di bawah ini. Untuk informasi rilis komprehensif untuk setiap rilis, lihat Amazon EMR versi rilis 5.x dan Versi rilis Amazon EMR 4.x.

Berlanggananlah feed RSS untuk catatan rilis Amazon EMR di https://docs.aws.amazon.com/emr/latest/ReleaseGuide/amazon-emr-release-notes.rss untuk menerima pembaruan ketika versi rilis Amazon EMR yang baru tersedia.

Rilis 5.35.0

Ini adalah Amazon EMR versi 5.35.0 rilis catatan.

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.35.0. Perubahan bersifat relatif terhadap 5.34.0.

Tanggal rilis awal: 30 Maret 2022

Fitur Baru
  • Amazon EMR rilis 5.35 aplikasi yang menggunakan Log4j 1.x dan Log4j 2.x ditingkatkan untuk menggunakan Log4j 1.2.17 (atau lebih tinggi) dan Log4j 2.17.1 (atau lebih tinggi) masing-masing, dan tidak memerlukan menggunakan tindakan bootstrap untuk mengurangi masalah CVE dalam rilis sebelumnya. Lihat Pendekatan untuk mengurangi CVE-2021-44228.

Perubahan, Penyempurnaan, dan Masalah Terselesaikan

Perubahan Flink
Jenis perubahan Deskripsi
Upgrade
  • Update versi flink ke 1.14.2.

  • log4j ditingkatkan ke 2.17.1.

Perubahan Hadoop
Jenis perubahan Deskripsi
Hadoop backports sumber terbuka sejak EMR 5.34.0
  • BENANG-10438: Menangani ContainerId null di clienTrmService#getContainerReport ()

  • BENANG-7266: Timeline Server event handler benang terkunci

  • BENANG-10438: ATS 1.5 gagal untuk memulai jika RollingLevelDb file yang korup atau hilang

  • HADOOP-13500: Sinkronisasi iterasi properti Konfigurasi objek

  • YARN-10651: CapacityScheduler jatuh dengan NPE di AbstractYarnScheduler. updateNodeResource()

  • HDFS-12221: Ganti xerces di XmlEditsVisitor

  • HDFS-16410: Tidak aman Xmlparsing di OfflineEditsXmlLoader

Hadoop perubahan dan perbaikan
  • Tomcat yang digunakan dalam KMS dan HttpFS ditingkatkan ke 8.5.75

  • Dalam FileSystemOptimizedCommitter V2, penanda sukses ditulis dalam jalur output commitJob yang ditentukan saat membuat committer. Karena jalur keluaran commitJob dan tingkat tugas dapat berbeda, jalur telah diperbaiki untuk menggunakan jalur yang ditentukan dalam file manifes. Untuk pekerjaan Hive, ini menghasilkan penanda sukses ditulis dengan benar ketika melakukan operasi seperti partisi dinamis atau UNION ALL.

Perubahan Hive
Jenis perubahan Deskripsi
Hive ditingkatkan ke rilis open source 2.3.9, termasuk perbaikan JIRA ini
  • HIVE-17155: findConfFile () di HiveConf .java memiliki beberapa masalah dengan jalur conf

  • SARANG-24797: Nonaktifkan memvalidasi nilai default saat mengurai skema Avro

  • SARANG-21563: TingkatkangetEmptyTable kinerja Tabel # dengan menonaktifkan registerAllFunctions Sekali

  • SARANG-18147: Tes dapat gagal dengan java.net. BindException: Alamat yang sudah digunakan

  • SARANG-24608: Beralih kembali ke get_table di klien HMS untuk Hive 2.3.x

  • SARANG-21200: Vektorisasi - kolom tanggal melempar java.lang. UnsupportedOperationException untuk parket

  • SARANG-19228: Hapus penggunaan commons-httpclient 3.x

Backport sumber terbuka sarang sejak EMR 5.34.0
  • SARANG-19990: Query dengan interval literal dalam kondisi bergabung gagal

  • SARANG-25824: Tingkatkan cabang-2.3 ke log4j 2.17.0

  • TEZ-4062: Penjadwalan upaya spekulatif harus dibatalkan ketika Tugas telah selesai

  • TEZ-4108: NullPointerException selama kondisi lomba eksekusi spekulatif

  • TEZ-3918: Pengaturan tez.task.log.level tidak bekerja

Upgrade sarang dan perbaikan
  • Upgrade versi Log4j ke 2.17.1

  • Meng-upgrade ke 1.4.3

  • Tetap kebuntuan karena benang penalti di ShuffleScheduler

Fitur baru
  • Ditambahkan fitur untuk mencetak Hive Query di AM log. Ini dinonaktifkan secara default. Bendera/Conf: tez.am.emr.print.hive.query.in.log. Status (default): PALSU.

Perubahan Oozie
Jenis perubahan Deskripsi
Oozie open source backports sejak EMR 5.34.0
  • OOZIE-3652: Peluncur Oozie harus mencoba lagi daftar direktori saat NoSuchFileException terjadi

Perubahan Pig
Jenis perubahan Deskripsi
Upgrade
  • log4j ditingkatkan ke 1.2.17.

Rilis 5.34.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.34.0. Perubahan bersifat relatif terhadap 5.33.1.

Tanggal rilis awal: 20 Januari 2022

Tanggal rilis yang diperbarui: 21 Maret 2022

Fitur Baru
  • [Penskalaan terkelola] Spark shuffle data yang dikelola pengoptimalan penskalaan - Untuk Amazon EMR versi 5.34.0 dan yang lebih baru, dan EMR versi 6.4.0 dan yang lebih baru, penskalaan terkelola sekarang menjadi sadar data Spark shuffle (data yang didistribusikan ulang Spark ke seluruh partisi untuk melakukan operasi tertentu). Untuk informasi selengkapnya tentang operasi acak, lihat Menggunakan penskalaan terkelola EMR di Amazon EMR dalam Panduan Manajemen Amazon EMR dan Panduan Pemrograman Spark.

  • [Hudi] Perbaikan untuk menyederhanakan konfigurasi Hudi. Dinonaktifkan kontrol konkurensi optimis secara default.

Perubahan, Penyempurnaan, dan Masalah Terselesaikan
  • Ini adalah rilis untuk memperbaiki masalah dengan Penskalaan Amazon EMR saat gagal menskala/menurunkan skala klaster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Sebelumnya, restart manual manajer sumber daya pada klaster multi-master menyebabkan daemon on-cluster Amazon EMR, seperti Zookeeper, memuat ulang semua node yang sebelumnya dinonaktifkan atau hilang dalam file znode Zookeeper. Hal ini menyebabkan batas default terlampaui dalam situasi tertentu. Amazon EMR sekarang menghapus catatan node yang dinonaktifkan atau hilang lebih dari satu jam dari file Zookeeper dan batas internal telah ditingkatkan.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar dan sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen Amazon EMR internal.

  • Daemon on-cluster EMR yang ditingkatkan untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • PERCIKAN-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama skala klaster saat Spark mengasumsikan semua node yang tersedia terdaftar deny-listed.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan di YARN menonaktifkan ketika cluster mencoba untuk meningkatkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster Amazon EMR dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti menurunkan skala dan pengiriman langkah gagal untuk klaster Amazon EMR yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster Amazon EMR tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi dengan aman dengan HDFS/YARN yang berjalan pada node master.

  • Zeppelin telah di-upgrade ke versi 0.10.0.

  • Livy Fix - ditingkatkan ke 0.7.1

  • Peningkatan kinerja percikan - pelaksana heterogen dinonaktifkan ketika nilai konfigurasi Spark tertentu diganti di EMR 5.34.0.

  • WebHDFS dan HttpFS server dinonaktifkan secara default. Anda dapat mengaktifkan kembali WebHDFS menggunakan konfigurasi Hadoop,dfs.webhdfs.enabled. HttpFS server dapat dimulai dengan menggunakansudo systemctl start hadoop-httpfs.

Masalah yang Diketahui
  • Fitur Amazon EMR Notebooks yang digunakan dengan peniruan pengguna Livy tidak berfungsi karena HTTPFS dinonaktifkan secara default. Dalam hal ini, notebook EMR tidak dapat terhubung ke cluster yang mengaktifkan peniruan Livy. Solusinya adalah untuk memulai HttpFS server sebelum menghubungkan notebook EMR ke cluster menggunakansudo systemctl start hadoop-httpfs.

  • Kueri Hue tidak berfungsi di Amazon EMR 6.4.0 karena server Apache Hadoop Hadoop HttpFS dinonaktifkan secara default. Untuk menggunakan Hue di Amazon EMR 6.4.0, mulai server HTTPFS secara manual pada node master Amazon EMR menggunakansudo systemctl start hadoop-httpfs, atau menggunakan langkah Amazon EMR.

  • Fitur Amazon EMR Notebooks yang digunakan dengan peniruan pengguna Livy tidak berfungsi karena HTTPFS dinonaktifkan secara default. Dalam hal ini, notebook EMR tidak dapat terhubung ke cluster yang mengaktifkan peniruan Livy. Solusinya adalah untuk memulai HttpFS server sebelum menghubungkan notebook EMR ke cluster menggunakansudo systemctl start hadoop-httpfs.

Rilis 6.5.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 6.5.0. Perubahan bersifat relatif terhadap 6.4.0.

Tanggal rilis awal: 20 Januari 2022

Tanggal rilis yang diperbarui: 21 Maret 2022

Fitur Baru
  • [Penskalaan terkelola] Spark shuffle data yang dikelola pengoptimalan penskalaan - Untuk Amazon EMR versi 5.34.0 dan yang lebih baru, dan EMR versi 6.4.0 dan yang lebih baru, penskalaan terkelola sekarang menjadi sadar data Spark shuffle (data yang didistribusikan ulang Spark ke seluruh partisi untuk melakukan operasi tertentu). Untuk informasi selengkapnya tentang operasi acak, lihat Menggunakan penskalaan terkelola EMR di Amazon EMR dalam Panduan Manajemen Amazon EMR dan Panduan Pemrograman Spark.

  • Dimulai dengan Amazon EMR 5.32.0 dan 6.5.0, ukuran pelaksana dinamis untuk Apache Spark diaktifkan secara default. Untuk mengaktifkan atau menonaktifkan fitur ini, Anda dapat menggunakan parameterspark.yarn.heterogeneousExecutors.enabled konfigurasi.

  • Support untuk Apache Iceberg format meja terbuka untuk dataset analitik besar.

  • Support untuk ranger-trino-plugin 2.0.1-amzn-1

  • Support untuk toree 0.5.0

Perubahan, Penyempurnaan, dan Masalah Terselesaikan
  • Versi rilis Amazon EMR 6.5 sekarang mendukung Apache Iceberg 0.12.0, dan menyediakan peningkatan runtime dengan Amazon EMR Runtime for Apache Spark, Amazon EMR Runtime for Presto, dan Amazon EMR Runtime for Apache Hive.

  • Apache Iceberg adalah format tabel terbuka untuk kumpulan data besar di Amazon S3 dan memberikan kinerja kueri cepat pada tabel besar, komit atom, penulisan bersamaan, dan evolusi tabel yang kompatibel dengan SQL. Dengan EMR 6.5, Anda dapat menggunakan Apache Spark 3.1.2 dengan format tabel Iceberg.

  • Apache Hudi 0,9 menambahkan Spark SQL DDL dan dukungan DML. Hal ini memungkinkan Anda untuk membuat, upsert tabel Hudi hanya menggunakan pernyataan SQL. Apache Hudi 0.9 juga mencakup sisi query dan sisi penulis perbaikan kinerja.

  • Amazon EMR Runtime for Apache Hive meningkatkan kinerja Apache Hive di Amazon S3 dengan menghapus operasi penggantian nama selama operasi pementasan, dan meningkatkan kinerja untuk perintah pemeriksaan metastore (MSCK) yang digunakan untuk memperbaiki tabel.

Masalah yang Diketahui
  • Saat Amazon EMR merilis 6.5.0, 6.6.0, atau 6.7.0 membaca tabel Apache Phoenix melalui shell Apache Spark,NoSuchMethodError terjadi karena Amazon EMR menggunakan salahHbase.compat.version. Amazon EMR Rilis 6.8.0 memperbaiki masalah ini.

  • Cluster bundel Hbase dalam ketersediaan tinggi (HA) gagal menyediakan dengan ukuran volume default dan jenis instance. Solusi untuk masalah ini adalah untuk meningkatkan ukuran volume root.

  • Untuk menggunakan tindakan Spark dengan Apache Oozie, Anda harus menambahkan konfigurasi berikut keworkflow.xml file Oozie Anda. Jika tidak, beberapa perpustakaan penting seperti Hadoop dan EMRFS akan hilang dari classpath pelaksana Spark yang diluncurkan Oozie.

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>

Rilis 6.4.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 6.4.0. Perubahan bersifat relatif terhadap 6.3.0.

Tanggal rilis awal: 20 September 2021

Tanggal rilis yang diperbarui: 21 Maret 2022

Aplikasi-aplikasi yang didukung
  • AWS SDK for Javaversi 1.12.31

  • CloudWatch Sink versi 2.2.0

  • DynamoDB Connector versi 4.16.0

  • EMRFS versi 2.47.0

  • Amazon EMR Goodies versi 3.2.0

  • Amazon EMR Kinesis Connector versi 3.5.0

  • Amazon EMR Record Server versi 2.1.0

  • Amazon EMR Scripts versi 2.5.0

  • Flink versi 1.13.1

  • Ganglia versi 3.7.2

  • AWSGlue Hive Metastore Client versi 3.3.0

  • Hadoop versi 3.2.1-amzn-4

  • HBase versi 2.4.4-amzn-0

  • HBase-operator-tools 1.1.0

  • HCatalog versi 3.1.2-amzn-5

  • Hive 3.1.2-amzn-5

  • Hudi versi 0.8.0-amzn-0

  • Hue versi 4.9.0

  • Java JDK versi Corretto-8.302.08.1 (build 1.8.0_302-b08)

  • JupyterHub versi 1.4.1

  • Livy versi 0.7.1-incubating

  • MXNet versi 1.8.0

  • Oozie versi 5.2.1

  • Phoenix versi 5.1.2

  • Pig versi 0.17.0

  • Presto versi 0.254.1-amzn-0

  • Trino versi 359

  • Apache Ranger KMS (enkripsi transparan multi-utama) versi 2.0.0

  • ranger-plugin 2.0.1-amzn-0

  • ranger-s3-plugin 1.2.0

  • SageMaker Spark SDK versi 1.4.1

  • Scala versi 2.12.10 (OpenJDK 64-Bit Server VM, Java 1.8.0_282)

  • Spark versi 3.1.2-amzn-0

  • spark-rapids 0.4.1

  • Sqoop versi 1.4.7

  • TensorFlow versi 2.4.1

  • tez versi 0.9.2

  • Zeppelin versi 0.9.0

  • Zookeeper versi 3.5.7

  • Konektor dan driver: DynamoDB Connector 4.16.0

Fitur baru
  • [Penskalaan terkelola] Spark shuffle data yang dikelola pengoptimalan penskalaan - Untuk Amazon EMR versi 5.34.0 dan yang lebih baru, dan EMR versi 6.4.0 dan yang lebih baru, penskalaan terkelola sekarang menjadi sadar data Spark shuffle (data yang didistribusikan ulang Spark ke seluruh partisi untuk melakukan operasi tertentu). Untuk informasi selengkapnya tentang operasi acak, lihat Menggunakan penskalaan terkelola EMR di Amazon EMR dalam Panduan Manajemen Amazon EMR dan Panduan Pemrograman Spark.

  • Pada klaster Amazon EMR yang mendukung Apache Ranger, Anda dapat menggunakan Apache Spark SQL untuk memasukkan data ke atau memperbarui tabel metastore Apache Hive menggunakanINSERT INTO,INSERT OVERWRITE, danALTER TABLE. Bila menggunakan ALTER TABLE dengan Spark SQL, lokasi partisi harus direktori anak dari lokasi tabel. Amazon EMR saat ini tidak mendukung penyisipan data ke partisi di mana lokasi partisi berbeda dari lokasi tabel.

  • PrestoSQL telah diubah namanya menjadi Trino.

  • Hive: Eksekusi query SELECT sederhana dengan klausa LIMIT dipercepat dengan menghentikan eksekusi query segera setelah jumlah catatan yang disebutkan dalam klausa LIMIT diambil. Kueri SELECT sederhana adalah kueri yang tidak memiliki GROUP BY/ORDER berdasarkan klausa atau kueri yang tidak memiliki tahap peredam. Sebagai contoh, SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>.

Hudi Concurrency Kontrol
  • Hudi sekarang mendukung Optimistic Concurrency Control (OCC), yang dapat dimanfaatkan dengan operasi tulis seperti UPSERT dan INSERT untuk memungkinkan perubahan dari beberapa penulis ke tabel Hudi yang sama. Ini adalah OCC tingkat file, sehingga setiap dua komit (atau penulis) dapat menulis ke tabel yang sama, jika perubahan mereka tidak bertentangan. Untuk informasi selengkapnya, lihat kontrol konkurensi Hudi.

  • Klaster Amazon EMR memiliki Zookeeper diinstal, yang dapat dimanfaatkan sebagai penyedia kunci untuk OCC. Agar lebih mudah menggunakan fitur ini, klaster Amazon EMR memiliki properti berikut yang telah dikonfigurasi sebelumnya:

    hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<EMR Zookeeper URL> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port> hoodie.write.lock.zookeeper.base_path=/hudi

    Untuk mengaktifkan OCC, Anda perlu mengonfigurasi properti berikut baik dengan opsi pekerjaan Hudi mereka atau di tingkat klaster menggunakan API konfigurasi Amazon EMR:

    hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=<Key to uniquely identify the Hudi table> (Table Name is a good option)
Pemantauan Hudi: CloudWatch Integrasi Amazon untuk melaporkan Hudi Metrics
  • Amazon EMR mendukung penerbitan Hudi Metrics ke Amazon CloudWatch. Hal ini diaktifkan dengan menetapkan konfigurasi yang diperlukan berikut:

    hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
  • Berikut ini adalah konfigurasi Hudi opsional yang dapat Anda ubah:

    Pengaturan Deskripsi Nilai

    hoodie.metrics.cloudwatch.report.period.seconds

    Frekuensi (dalam detik) untuk melaporkan metrik ke Amazon CloudWatch

    Nilai default adalah 60-an, yang bagus untuk resolusi default satu menit yang ditawarkan oleh Amazon CloudWatch

    hoodie.metrics.cloudwatch.metric.awalan

    Awalan yang akan ditambahkan ke setiap nama metrik

    Nilai default kosong (tidak ada awalan)

    hoodie.metrics.cloudwatch.namespace

    CloudWatch Namespace Amazon di mana metrik dipublikasikan

    Nilai defaultnya adalah Hudi

    hoodie.metrics.cloudwatch. maxDatumsPerPermintaan

    Jumlah maksimum datum untuk dimasukkan dalam satu permintaan ke Amazon CloudWatch

    Nilai default adalah 20, yang sama dengan CloudWatch default Amazon

Dukungan dan peningkatan konfigurasi Amazon EMR Hudi
  • Pelanggan sekarang dapat memanfaatkan fitur API Konfigurasi EMR dan Konfigurasi Ulang untuk mengonfigurasi konfigurasi Hudi di tingkat klaster. Dukungan konfigurasi berbasis file baru telah diperkenalkan melalui /etc/hudi/conf/hudi-defaults.conf di sepanjang garis aplikasi lain seperti Spark, Hive dll. EMR mengkonfigurasi beberapa default untuk meningkatkan pengalaman pengguna:

    -hoodie.datasource.hive_sync.jdbcurl dikonfigurasi ke URL server Cluster Hive dan tidak perlu lagi ditentukan. Ini sangat berguna saat menjalankan pekerjaan dalam mode klaster Spark, di mana Anda sebelumnya harus menentukan IP master Amazon EMR.

    - HBase konfigurasi tertentu, yang berguna untuk menggunakan indeks HBase dengan Hudi.

    - Konfigurasi spesifik penyedia kunci Zookeeper, seperti yang dibahas di bawah kontrol konkurensi, yang membuatnya lebih mudah untuk menggunakan Optimistic Concurrency Control (OCC).

  • Perubahan tambahan telah diperkenalkan untuk mengurangi jumlah konfigurasi yang perlu Anda lewati, dan untuk menyimpulkan secara otomatis jika memungkinkan:

    -partitionBy Kata kunci dapat digunakan untuk menentukan kolom partisi.

    - Ketika mengaktifkan Hive Sync, itu tidak lagi wajib untuk lulusHIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY. Nilai-nilai dapat disimpulkan dari nama tabel Hudi dan bidang partisi.

    KEYGENERATOR_CLASS_OPT_KEY tidak wajib untuk lulus, dan dapat disimpulkan dari kasus-kasus sederhanaSimpleKeyGenerator danComplexKeyGenerator.

Hudi
  • Hudi tidak mendukung eksekusi vectorized di Hive untuk Merge on Read (MoR) dan tabel Bootstrap. Misalnya,count(*) gagal dengan Hudi tabel realtime ketikahive.vectorized.execution.enabled diatur ke benar. Sebagai solusi, Anda dapat menonaktifkan pembacaan vektor dengan mengaturhive.vectorized.execution.enabled kefalse.

  • Dukungan multi-penulis tidak kompatibel dengan fitur bootstrap Hudi.

  • Flink Streamer dan Flink SQL adalah fitur eksperimental dalam rilis ini. Fitur-fitur ini tidak disarankan untuk digunakan dalam penyebaran produksi.

Perubahan, penyempurnaan, dan masalah yang diselesaikan

Ini adalah rilis untuk memperbaiki masalah dengan Penskalaan Amazon EMR saat gagal menskala/menurunkan skala klaster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Sebelumnya, restart manual manajer sumber daya pada klaster multi-master menyebabkan daemon on-cluster Amazon EMR, seperti Zookeeper, memuat ulang semua node yang sebelumnya dinonaktifkan atau hilang dalam file znode Zookeeper. Hal ini menyebabkan batas default terlampaui dalam situasi tertentu. Amazon EMR sekarang menghapus catatan node yang dinonaktifkan atau hilang lebih dari satu jam dari file Zookeeper dan batas internal telah ditingkatkan.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar dan sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen Amazon EMR internal.

  • Daemon on-cluster EMR yang ditingkatkan untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • PERCIKAN-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama skala klaster saat Spark mengasumsikan semua node yang tersedia terdaftar deny-listed.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan di YARN menonaktifkan ketika cluster mencoba untuk meningkatkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster Amazon EMR dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti menurunkan skala dan pengiriman langkah gagal untuk klaster Amazon EMR yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster Amazon EMR tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi dengan aman dengan HDFS/YARN yang berjalan pada node master.

  • Mengkonfigurasi cluster untuk memperbaiki masalah kinerja Apache YARN Timeline Server versi 1 dan 1.5

    Apache YARN Timeline Server versi 1 dan 1.5 dapat menyebabkan masalah kinerja dengan sangat aktif, cluster EMR besar, terutama denganyarn.resourcemanager.system-metrics-publisher.enabled=true, yang merupakan pengaturan default di EMR. Sumber terbuka YARN Timeline Server v2 memecahkan masalah kinerja yang terkait dengan skalabilitas YARN Timeline Server.

    Solusi lain untuk masalah ini meliputi:

    • Mengkonfigurasi yarn.resourcemanager. system-metrics-publisher.enabled=false di yarn-site.xml.

    • Mengaktifkan perbaikan untuk masalah ini saat membuat klaster, seperti yang dijelaskan di bawah ini.

    Versi rilis Amazon EMR berikut berisi perbaikan untuk masalah kinerja Server Timeline YARN ini.

    EMR 5.30.2, 5.31.1, 5.32.1, 5.33.1, 5.34.x, 6.0.1, 6.1.1, 6.2.1, 6.3.1, 6.4.x

    Untuk mengaktifkan perbaikan pada salah satu rilis Amazon EMR yang ditentukan di atas, tetapkan properti ini ketrue dalam file konfigurasi JSON yang diteruskan menggunakan parameteraws emr create-cluster perintah: --configurations file://./configurations.json. Atau aktifkan perbaikan menggunakan UI konsol konfigurasi ulang.

    Contoh isi file configurations.json:

    [ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
  • WebHDFS dan HttpFS server dinonaktifkan secara default. Anda dapat mengaktifkan kembali WebHDFS menggunakan konfigurasi Hadoop,dfs.webhdfs.enabled. HttpFS server dapat dimulai dengan menggunakansudo systemctl start hadoop-httpfs.

  • HTTPS sekarang diaktifkan secara default untuk repositori Amazon Linux. Jika Anda menggunakan kebijakan Amazon S3 VPCE untuk membatasi akses ke bucket tertentu, Anda harus menambahkan ARN bucket Amazon Linux baruarn:aws:s3:::amazonlinux-2-repos-$region/* ke kebijakan Anda (ganti$region dengan wilayah tempat titik akhir berada). Untuk informasi selengkapnya, lihat topik ini di forumAWS diskusi. Pengumuman: Amazon Linux 2 sekarang mendukung kemampuan untuk menggunakan HTTPS saat menghubungkan ke repositori paket.

  • Hive: Menulis kinerja query ditingkatkan dengan mengaktifkan penggunaan direktori awal pada HDFS untuk pekerjaan terakhir. Data sementara untuk pekerjaan akhir ditulis ke HDFS alih-alih Amazon S3 dan kinerja ditingkatkan karena data dipindahkan dari HDFS ke lokasi tabel akhir (Amazon S3) alih-alih antara perangkat Amazon S3.

  • Hive: Peningkatan waktu kompilasi kueri hingga 2.5x dengan Pemangkasan Partisi Metastore Glue.

  • Secara default, ketika UDF bawaan diteruskan oleh Hive ke Server Metastore Hive, hanya sebagian dari UDF bawaan yang diteruskan ke Glue Metastore karena Glue hanya mendukung operator ekspresi terbatas. Jika Anda mengaturhive.glue.partition.pruning.client=true, maka semua pemangkasan partisi terjadi pada sisi klien. Jika Anda mengaturhive.glue.partition.pruning.server=true, maka semua pemangkasan partisi terjadi di sisi server.

Masalah diketahui
  • Kueri Hue tidak berfungsi di Amazon EMR 6.4.0 karena server Apache Hadoop Hadoop HttpFS dinonaktifkan secara default. Untuk menggunakan Hue di Amazon EMR 6.4.0, mulai server HTTPFS secara manual pada node master Amazon EMR menggunakansudo systemctl start hadoop-httpfs, atau menggunakan langkah Amazon EMR.

  • Fitur Amazon EMR Notebooks yang digunakan dengan peniruan pengguna Livy tidak berfungsi karena HTTPFS dinonaktifkan secara default. Dalam hal ini, notebook EMR tidak dapat terhubung ke cluster yang mengaktifkan peniruan Livy. Solusinya adalah untuk memulai HttpFS server sebelum menghubungkan notebook EMR ke cluster menggunakansudo systemctl start hadoop-httpfs.

  • Di Amazon EMR versi 6.4.0, Phoenix tidak mendukung komponen konektor Phoenix.

  • Untuk menggunakan tindakan Spark dengan Apache Oozie, Anda harus menambahkan konfigurasi berikut keworkflow.xml file Oozie Anda. Jika tidak, beberapa perpustakaan penting seperti Hadoop dan EMRFS akan hilang dari classpath pelaksana Spark yang diluncurkan Oozie.

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>

Rilis 5.32.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.32.0. Perubahan bersifat relatif terhadap 5.31.0.

Tanggal rilis awal: 8 Jan 2021

Upgrade
  • Konektor Amazon Glue telah di-upgrade ke versi 1.14.0

  • Amazon SageMaker Spark SDK telah di-upgrade ke versi 1.4.1

  • Telah di-upgradeAWS SDK for Java ke versi 1.11.890

  • EMR DynamoDB Connector telah di-upgrade ke versi 4.16.0

  • EMRFS telah di-upgrade ke versi 2.45.0

  • EMR Log Analytics Metrics telah di-upgrade ke versi 1.18.0

  • EMR MetricsAndEventsApiGateway Client telah di-upgrade ke versi 1.5.0

  • EMR Record Server telah di-upgrade ke versi 1.8.0

  • EMR S3 Dist CP telah di-upgrade ke versi 2.17.0

  • EMR Secret Agent telah di-upgrade ke versi 1.7.0

  • Flink telah di-upgrade ke versi 1.11.2

  • Hadoop telah di-upgrade ke versi 2.10.1-amzn-0

  • Hive telah di-upgrade ke versi 2.3.7-amzn-3

  • Hue telah di-upgrade ke versi 4.8.0

  • Mxnet telah di-upgrade ke versi 1.7.0

  • OpenCV telah di-upgrade ke versi 4.4.0

  • Presto telah di-upgrade ke versi 0.240.1-amzn-0

  • Spark telah di-upgrade ke versi 2.4.7-amzn-0

  • Telah di-upgrade TensorFlow ke versi 2.3.1

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Ini adalah rilis untuk memperbaiki masalah dengan Penskalaan Amazon EMR saat gagal menskala/menurunkan skala klaster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar dan sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen Amazon EMR internal.

  • Daemon on-cluster EMR yang ditingkatkan untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • PERCIKAN-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama skala klaster saat Spark mengasumsikan semua node yang tersedia terdaftar deny-listed.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan di YARN menonaktifkan ketika cluster mencoba untuk meningkatkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster Amazon EMR dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti menurunkan skala dan pengiriman langkah gagal untuk klaster Amazon EMR yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster Amazon EMR tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi dengan aman dengan HDFS/YARN yang berjalan pada node master.

  • Rilis Amazon EMR yang lebih baru memperbaiki masalah dengan batas “Maksimal file terbuka” pada AL2 yang lebih tua di Amazon EMR. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru sekarang menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi.

  • Versi komponen yang telah ditingkatkan.

  • Untuk daftar versi komponen, lihat Tentang Rilis Amazon EMR dalam panduan ini.

Fitur baru
  • Dimulai dengan Amazon EMR 5.32.0 dan 6.5.0, ukuran pelaksana dinamis untuk Apache Spark diaktifkan secara default. Untuk mengaktifkan atau menonaktifkan fitur ini, Anda dapat menggunakan parameterspark.yarn.heterogeneousExecutors.enabled konfigurasi.

  • Status dukungan Instance Metadata Service (IMDS) V2: Amazon EMR 5.23.1, 5.27.1 dan 5.32 atau komponen yang lebih baru menggunakan IMDSv2 untuk semua panggilan IMDS. Untuk panggilan IMDS dalam kode aplikasi Anda, Anda dapat menggunakan IMDSv1 dan IMDSv2, atau mengkonfigurasi IMDS untuk hanya menggunakan IMDSv2 untuk keamanan tambahan. Untuk rilis EMR seri 5.x lainnya, menonaktifkan IMDSv1 akan menyebabkan gagal mulai klaster.

  • Dimulai dengan Amazon EMR 5.32.0, Anda dapat meluncurkan sebuah klaster yang terintegrasi secara asli dengan Apache Ranger. Apache Ranger adalah kerangka kerja sumber terbuka untuk mengaktifkan, memantau, dan mengelola keamanan data komprehensif di seluruh platform Hadoop. Untuk informasi selengkapnya, lihat Apache Ranger. Dengan integrasi asli, Anda dapat membawa Apache Ranger Anda sendiri untuk memberlakukan kendali akses data halus di Amazon EMR. Lihat Mengintegrasikan Amazon EMR dengan Apache Ranger di Panduan Rilis Amazon EMR.

  • Amazon EMR Rilis 5.32.0 mendukung Amazon EMR di EKS. Untuk rincian lebih lanjut tentang memulai dengan EMR pada EKS, lihat Apa itu Amazon EMR di EKS.

  • Amazon EMR Rilis 5.32.0 mendukung Amazon EMR Studio (Pratinjau). Untuk detail lebih lanjut tentang memulai EMR Studio, lihat Amazon EMR Studio (Pratinjau).

  • Kebijakan terkelola yang dikelola: Untuk menyelaraskan dengan praktikAWS terbaik, Amazon EMR telah memperkenalkan kebijakan terkelola tercakup default EMR v2 sebagai pengganti kebijakan yang tidak lagi digunakan. Lihat Kebijakan Terkelola Amazon EMR.

Masalah diketahui
  • Untuk klaster subnet privat Amazon EMR 6.3.0 dan 6.2.0, Anda tidak dapat mengakses UI web Ganglia. Anda akan mendapatkan pesan kesalahan "akses ditolak (403)". UI web lainnya, seperti Spark, Hue, JupyterHub,, Zeppelin, Livy, dan Tez bekerja normal. Akses UI web Ganglia pada klaster subnet publik juga bekerja secara normal. Untuk mengatasi masalah ini, lakukan restart layanan httpd pada simpul utama dengan sudo systemctl restart httpd. Masalah ini telah diperbaiki di Amazon EMR 6.4.0.

  • Turunkan batas “Maksimal file terbuka” pada AL2 yang lebih tua [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit lebih rendah untuk “Maksimal file terbuka” ketika klaster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah akan menyebabkan munculnya kesalahan “Terlalu banyak file terbuka” saat mengirimkan tugas Spark. Dalam rilis yang terdampak, Amazon EMR default AMI memiliki pengaturan ulimit default 4096 untuk “Maksimal file terbuka,” yang lebih rendah dari batas file 65536 di Amazon Linux 2 AMI terbaru. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi Amazon EMR lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit instans-pengendali di jumlah maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Atur ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • penting

    Klaster Amazon EMR yang menjalankan Amazon Linux atau Amazon Linux 2 AMIs (Amazon Linux Machine Images) menggunakan perilaku Amazon Linux default, dan tidak secara otomatis mengunduh dan menginstal pembaruan kernel penting dan kritis yang memerlukan reboot. Ini adalah perilaku yang sama seperti instans Amazon EC2 lainnya yang menjalankan default Amazon Linux AMI. Jika pembaruan perangkat lunak Amazon Linux baru yang memerlukan reboot (seperti pembaruan kernel, NVIDIA, dan CUDA) telah tersedia setelah versi Amazon EMR dirilis, maka instans klaster Amazon EMR yang menjalankan default AMI tidak secara otomatis mengunduh dan menginstal pembaruan tersebut. Untuk mendapatkan pembaruan kernel, Anda dapat menyesuaikan Amazon EMR AMI menjadi gunakan Amazon Linux AMI terbaru.

  • Support konsol untuk membuat konfigurasi keamanan yang menentukan Opsi integrasiAWS Ranger saat ini tidak didukung di GovCloud Region. Konfigurasi keamanan dapat dilakukan dengan menggunakan CLI. Lihat Membuat Konfigurasi Keamanan EMR di Panduan Pengelolaan Amazon EMR.

  • Ketika AtRestEncryption atau HDFS enkripsi diaktifkan pada sebuah cluster yang menggunakan EMR 5.31.0 atau 5.32.0, query Hive mengakibatkan runtime pengecualian berikut.

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found

Rilis 6.2.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 6.2.0. Perubahan bersifat relatif terhadap versi 6.1.0.

Tanggal rilis awal: 9 Desember 2020

Tanggal diperbarui: 4 Ok2021

Aplikasi-aplikasi yang didukung
  • AWS SDK for Java versi 1.11.828

  • emr-record-server versi 1.7.0

  • Flink versi 1.11.2

  • Ganglia versi 3.7.2

  • Hadoop versi 3.2.1-amzn-1

  • HBase versi 2.2.6-amzn-0

  • HBase-operator-tools 1.0.0

  • HCatalog versi 3.1.2-amzn-0

  • Hive versi 3.1.2-amzn-3

  • Hudi versi 0.6.0-amzn-1

  • Hue versi 4.8.0

  • JupyterHub versi 1.1.0

  • Livy versi 0.7.0

  • MXNet versi 1.7.0

  • Oozie versi 5.2.0

  • Phoenix versi 5.0.0

  • Pig versi 0.17.0

  • Presto versi 0.238.3-amzn-1

  • PrestoSQL versi 343

  • Spark versi 3.0.1-amzn-0

  • spark-rapids versi 0.2.0

  • TensorFlow versi 2.3.1

  • Zeppelin versi 0.9.0-preview1

  • Zookeeper versi 3.4.14

  • Konektor dan driver: DynamoDB Connector 4.16.0

Fitur baru
  • HBase: Menghapus perubahan nama dalam fase melakukan commit dan menambahkan pelacakan HFile persisten. Lihat Pelacakan HFile Persisten di Panduan Rilis Amazon EMR.

  • HBase: Melakukan backporting Membuat konfigurasi yang memaksa untuk melakukan caching pada blok pada pemadatan.

  • PrestoDB: Perbaikan Pemangkasan Partisi Dinamis. Join Reorder berbasis aturan bekerja pada data non-partisi.

  • Kebijakan terkelola yang dikelola: Untuk menyelaraskan dengan praktikAWS terbaik, Amazon EMR telah memperkenalkan kebijakan terkelola tercakup default EMR v2 sebagai pengganti kebijakan yang tidak lagi digunakan. Lihat Kebijakan Terkelola Amazon EMR.

  • Status dukungan Instance Metadata Service (IMDS) V2: Untuk Amazon EMR 6.2 atau yang lebih baru, komponen Amazon EMR menggunakan IMDSv2 untuk semua panggilan IMDS. Untuk panggilan IMDS dalam kode aplikasi Anda, Anda dapat menggunakan IMDSv1 dan IMDSv2, atau mengkonfigurasi IMDS untuk hanya menggunakan IMDSv2 untuk keamanan tambahan. Jika Anda menonaktifkan IMDSv1 di Amazon EMR rilis 6.x sebelumnya, maka hal itu akan menyebabkan kegagalan memulai klaster.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Ini adalah rilis untuk memperbaiki masalah dengan Penskalaan Amazon EMR saat gagal menskala/menurunkan skala klaster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar dan sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen Amazon EMR internal.

  • Daemon on-cluster EMR yang ditingkatkan untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • PERCIKAN-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama skala klaster saat Spark mengasumsikan semua node yang tersedia terdaftar deny-listed.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan di YARN menonaktifkan ketika cluster mencoba untuk meningkatkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster Amazon EMR dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti menurunkan skala dan pengiriman langkah gagal untuk klaster Amazon EMR yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster Amazon EMR tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi dengan aman dengan HDFS/YARN yang berjalan pada node master.

  • Rilis Amazon EMR yang lebih baru memperbaiki masalah dengan batas “Maksimal file terbuka” pada AL2 yang lebih tua di Amazon EMR. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru sekarang menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi.

  • Percikan: Perbaikan performa dalam waktu aktif Spark.

Masalah diketahui
  • Amazon EMR 6.2 memiliki izin yang salah ditetapkan padalibinstance-controller-java file /etc/cron.d/ di EMR 6.2.0. Izin pada file adalah 645 (-rw-r—r-x), ketika mereka harus 644 (-rw-r—r—). Akibatnya, Amazon EMR versi 6.2 tidak mencatat log instance-state, dan direktori /emr/instance-logs kosong. Masalah ini telah diperbaiki di Amazon EMR 6.3.0 dan yang lebih baru.

    Untuk mengatasinya, jalankan skrip berikut sebagai tindakan bootstrap saat peluncuran klaster.

    #!/bin/bash sudo chmod 644 /etc/cron.d/libinstance-controller-java
  • Untuk klaster subnet privat Amazon EMR 6.2.0 dan 6.3.0, Anda tidak dapat mengakses UI web Ganglia. Anda akan mendapatkan pesan kesalahan "akses ditolak (403)". UI web lainnya, seperti Spark, Hue, JupyterHub,, Zeppelin, Livy, dan Tez bekerja normal. Akses UI web Ganglia pada klaster subnet publik juga bekerja secara normal. Untuk mengatasi masalah ini, lakukan restart layanan httpd pada simpul utama dengan sudo systemctl restart httpd. Masalah ini telah diperbaiki di Amazon EMR 6.4.0.

  • Ada masalah pada Amazon EMR 6.2.0 di mana httpd terus-menerus gagal, sehingga menyebabkan Ganglia tidak tersedia. Anda mendapatkan pesan kesalahan "tidak dapat menyambung ke server". Untuk memperbaiki sebuah klaster yang sudah berjalan dengan masalah ini, SSH simpul utama klaster dan tambahkan baris Listen 80 ke file httpd.conf yang terletak di /etc/httpd/conf/httpd.conf. Masalah ini telah diperbaiki pada Amazon EMR 6.3.0.

  • HTTPD gagal pada klaster EMR 6.2.0 ketika Anda menggunakan konfigurasi keamanan. Hal ini membuat antarmuka pengguna aplikasi web Ganglia tidak tersedia. Untuk mengakses antarmuka pengguna aplikasi web Ganglia, tambahkan Listen 80 ke file /etc/httpd/conf/httpd.conf pada simpul utama klaster Anda. Untuk informasi tentang menghubungkan ke klaster Anda, lihat Connect ke Simpul Utama Menggunakan SSH.

    EMR Notebooks juga gagal untuk membuat sambungan dengan klaster EMR 6.2.0 bila Anda menggunakan konfigurasi keamanan. Notebook tersebut akan gagal untuk membuat daftar kernel dan mengirimkan tugas Spark. Kami merekomendasikan agar Anda menggunakan EMR Notebooks dengan Amazon EMR versi lainnya sebagai gantinya.

  • Turunkan batas “Maksimal file terbuka” pada AL2 yang lebih tua [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit lebih rendah untuk “Maksimal file terbuka” ketika klaster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah akan menyebabkan munculnya kesalahan “Terlalu banyak file terbuka” saat mengirimkan tugas Spark. Dalam rilis yang terdampak, Amazon EMR default AMI memiliki pengaturan ulimit default 4096 untuk “Maksimal file terbuka,” yang lebih rendah dari batas file 65536 di Amazon Linux 2 AMI terbaru. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi Amazon EMR lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit instans-pengendali di jumlah maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Atur ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • penting

    Amazon EMR 6.1.0 dan 6.2.0 mempunyai masalah performa yang secara kritis dapat mempengaruhi semua operasi insert, upsert, dan delete Hudi. Jika Anda berencana untuk menggunakan Hudi dengan Amazon EMR 6.1.0 atau 6.2.0, maka Anda harus menghubungi dukungan AWS untuk mendapatkan Hudi RPM yang telah di-patch.

  • penting

    Klaster Amazon EMR yang menjalankan Amazon Linux atau Amazon Linux 2 AMIs (Amazon Linux Machine Images) menggunakan perilaku Amazon Linux default, dan tidak secara otomatis mengunduh dan menginstal pembaruan kernel penting dan kritis yang memerlukan reboot. Ini adalah perilaku yang sama seperti instans Amazon EC2 lainnya yang menjalankan default Amazon Linux AMI. Jika pembaruan perangkat lunak Amazon Linux baru yang memerlukan reboot (seperti pembaruan kernel, NVIDIA, dan CUDA) telah tersedia setelah versi Amazon EMR dirilis, maka instans klaster Amazon EMR yang menjalankan default AMI tidak secara otomatis mengunduh dan menginstal pembaruan tersebut. Untuk mendapatkan pembaruan kernel, Anda dapat menyesuaikan Amazon EMR AMI menjadi gunakan Amazon Linux AMI terbaru.

  • Artefak Amazon EMR 6.2.0 Maven tidak dipublikasikan. Ia akan diterbitkan dengan rilis Amazon EMR yang akan datang.

  • Pelacakan HFile persisten menggunakan tabel sistem penyimpanan file HBase tidak mendukung fitur replikasi wilayah HBase. Untuk informasi selengkapnya tentang replikasi wilayah HBase, lihat Baca Dengan Ketersediaan Tinggi yang Konsisten Timeline.

  • Perbedaan versi bucket Amazon EMR 6.x dan EMR 5.x Hive

    EMR 5.x menggunakan OOS Apache Hive 2, sedangkan di EMR 6.x menggunakan OOS Apache Hive 3. Hive2 sumber terbuka menggunakan Bucketing versi 1, sementara Hive3 sumber terbuka menggunakan Bucketing versi 2. Perbedaan versi bucket antara Hive 2 (EMR 5.x) dan Hive 3 (EMR 6.x) berarti pem-bucket-an Hive melakukan hashing fungsi yang berbeda. Lihat contoh di bawah ini.

    Tabel berikut adalah contoh yang dibuat di EMR 6.x dan EMR 5.x, berurutan.

    -- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';

    Memasukkan data yang sama di EMR 6.x dan EMR 5.x.

    INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');

    Memeriksa lokasi S3, menunjukkan nama file pem-bucket-an yang berbeda, karena fungsi hashing yang berbeda antara EMR 6.x (Hive 3) dan EMR 5.x (Hive 2).

    [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0

    Anda juga dapat melihat perbedaan versi dengan menjalankan perintah berikut di Hive CLI di EMR 6.x. Perhatikan bahwa ia menghasilkan pem-bucket-an versi 2.

    hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...
  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus menjalankan kembali perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.31.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.31.0. Perubahan bersifat relatif terhadap 5.30.1.

Tanggal rilis awal: 9 Oktober 2020

Tanggal diperbarui: 15 Oktober 2020

Upgrade
  • Konektor Amazon Glue telah di-upgrade ke versi 1.13.0

  • Amazon SageMaker Spark SDK telah di-upgrade ke versi 1.4.0

  • Konektor Amazon Kinesis telah di-upgrade ke versi 3.5.9

  • Telah di-upgradeAWS SDK for Java ke versi 1.11.852

  • Bigtop-tomcat telah di-upgrade ke versi 8.5.56

  • EMR FS telah di-upgrade ke versi 2.43.0

  • EMR MetricsAndEventsApiGateway Client telah di-upgrade ke versi 1.4.0

  • EMR S3 Dist CP telah di-upgrade ke versi 2.15.0

  • EMR S3 Select telah di-upgrade ke versi 1.6.0

  • Flink telah di-upgrade ke versi 1.11.0

  • Hadoop telah di-upgrade ke versi 2.10.0

  • Hive telah di-upgrade ke versi 2.3.7

  • Hudi telah di-upgrade ke versi 0.6.0

  • Hue telah di-upgrade ke versi 4.7.1

  • Telah di-upgrade JupyterHub ke versi 1.1.0

  • Mxnet telah di-upgrade ke versi 1.6.0

  • OpenCV telah di-upgrade ke versi 4.3.0

  • Presto telah di-upgrade ke versi 0.238.3

  • Telah di-upgrade TensorFlow ke versi 2.1.0

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Ini adalah rilis untuk memperbaiki masalah dengan Penskalaan Amazon EMR saat gagal menskala/menurunkan skala klaster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar dan sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen Amazon EMR internal.

  • Daemon on-cluster EMR yang ditingkatkan untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • PERCIKAN-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama skala klaster saat Spark mengasumsikan semua node yang tersedia terdaftar deny-listed.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan di YARN menonaktifkan ketika cluster mencoba untuk meningkatkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster Amazon EMR dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti menurunkan skala dan pengiriman langkah gagal untuk klaster Amazon EMR yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster Amazon EMR tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi dengan aman dengan HDFS/YARN yang berjalan pada node master.

  • Rilis Amazon EMR yang lebih baru memperbaiki masalah dengan batas “Maksimal file terbuka” pada AL2 yang lebih tua di Amazon EMR. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru sekarang menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi.

  • Kolom statistik Hive didukung untuk Amazon EMR versi 5.31.0 dan versi setelahnya.

  • Versi komponen yang telah ditingkatkan.

  • Support EMRFS S3EC V2 di Amazon EMR 5.31.0. Di S3 Java SDK rilis 1.11.837 dan versi setelahnya, klien enkripsi Versi 2 (S3EC V2) telah diperkenalkan dengan berbagai peningkatan keamanan. Untuk informasi selengkapnya, lihat yang berikut:

    Enkripsi Klien V1 masih tersedia di SDK untuk kompatibilitas mundur.

Fitur baru
  • Turunkan batas “Maksimal file terbuka” pada AL2 yang lebih tua [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit lebih rendah untuk “Maksimal file terbuka” ketika klaster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah akan menyebabkan munculnya kesalahan “Terlalu banyak file terbuka” saat mengirimkan tugas Spark. Dalam rilis yang terdampak, Amazon EMR default AMI memiliki pengaturan ulimit default 4096 untuk “Maksimal file terbuka,” yang lebih rendah dari batas file 65536 di Amazon Linux 2 AMI terbaru. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi Amazon EMR lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit instans-pengendali di jumlah maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Atur ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Dengan Amazon EMR 5.31.0, Anda dapat melakukan peluncuran klaster yang terintegrasi dengan Lake Formation. Integrasi ini menyediakan pem-filter-an data yang halus, tingkat-kolom ke basis data dan tabel di Katalog Data Glue AWS. Hal ini juga mengaktifkan sistem masuk tunggal federasi ke EMR Notebooks atau Apache Zeppelin dari sistem identitas korporasi. Untuk informasi selengkapnya, lihat Meng-integrasi-kan EMR dengan AWS Lake Formation di Panduan Pengelolaan Amazon EMR.

    Amazon EMR dengan Lake Formation saat ini tersedia di 16AWS Wilayah: US East (Ohio dan N. Virginia), AS Barat (N. California dan Oregon), Asia Pacific (Mumbai, Seoul, Singapura, Sydney, dan Tokyo), Canada (Central) Eropa (Frankfurt, Irlandia, London, Paris, dan Stockholm), South America (São Paulo).

Masalah diketahui
  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus menjalankan kembali perintah di atas setelah tiket Kerberos berakhir.

  • Ketika AtRestEncryption atau HDFS enkripsi diaktifkan pada sebuah cluster yang menggunakan EMR 5.31.0 atau 5.32.0, query Hive mengakibatkan runtime pengecualian berikut.

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found

Rilis 6.1.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 6.1.0. Perubahan bersifat relatif terhadap versi 6.0.0.

Tanggal rilis awal: 4 September 2020

Tanggal diperbarui: 15 Oktober 2020

Aplikasi-aplikasi yang didukung
  • AWS SDK for Java versi 1.11.828

  • Flink versi 1.11.0

  • Ganglia versi 3.7.2

  • Hadoop versi 3.2.1-amzn-1

  • HBase versi 2.2.5

  • HBase-operator-tools 1.0.0

  • HCatalog versi 3.1.2-amzn-0

  • Hive versi 3.1.2-amzn-1

  • Hudi versi 0.5.2-incubating

  • Hue versi 4.7.1

  • JupyterHub versi 1.1.0

  • Livy versi 0.7.0

  • MXNet versi 1.6.0

  • Oozie versi 5.2.0

  • Phoenix versi 5.0.0

  • Presto versi 0.232

  • PrestoSQL versi 338

  • Spark versi 3.0.0-amzn-0

  • TensorFlow versi 2.1.0

  • Zeppelin versi 0.9.0-preview1

  • Zookeeper versi 3.4.14

  • Konektor dan driver: DynamoDB Connector 4.14.0

Fitur baru
  • Tipe instans ARM didukung mulai dari Amazon EMR versi 5.30.0 dan Amazon EMR versi 6.1.0.

  • Tipe instans tujuan umum M6g didukung mulai dengan Amazon EMR versi 6.1.0 dan 5.30.0. Untuk informasi selengkapnya, lihat Tipe instans yang didukung di Panduan Pengelolaan Amazon EMR.

  • Fitur grup penempatan EC2 didukung mulai dengan Amazon EMR versi 5.23.0 sebagai pilihan untuk beberapa klaster simpul utama. Saat ini, hanya tipe simpul utama yang didukung oleh fitur grup penempatan, dan strategi SPREAD diterapkan terhadap simpul utama tersebut. Strategi SPREAD menempatkan sekelompok kecil grup instans di perangkat keras yang mendasari terpisah untuk menjaga dari hilangnya beberapa simpul utama saat terjadi kegagalan perangkat keras. Untuk informasi selengkapnya, lihat Integrasi EMR dengan Grup Penempatan EC2 di Panduan Pengelolaan Amazon EMR.

  • Penskalaan Terkelola – Dengan Amazon EMR versi 6.1.0, Anda dapat mengaktifkan penskalaan terkelola EMR untuk secara otomatis menambah atau mengurangi jumlah instans atau unit di klaster Anda berdasarkan beban kerja. EMR terus-menerus mengevaluasi metrik klaster untuk membuat keputusan penskalaan yang akan mengoptimalkan klaster Anda dalam hal biaya dan kecepatan. Penskalaan Terkelola juga tersedia di Amazon EMR versi 5.30.0 dan setelahnya, kecuali versi 6.0.0. Untuk informasi selengkapnya, lihat Penskalaan Sumber Daya Klaster di Panduan Pengelolaan Amazon EMR.

  • PrestoSQL versi 338 didukung dengan EMR 6.1.0. Untuk informasi selengkapnya, lihat Presto.

    • PrestoSQL didukung pada EMR 6.1.0 dan hanya versi setelahnya, namun tidak pada EMR 6.0.0 atau EMR 5.x.

    • Nama aplikasi, Presto terus-menerus digunakan untuk menginstal PrestoDB pada klaster. Untuk menginstal PrestoSQL pada klaster, gunakan nama aplikasi PrestoSQL.

    • Anda dapat menginstal PrestoDB atau PrestoSQL, tetapi Anda tidak dapat menginstal keduanya pada satu klaster. Jika PrestoDB dan PrestoSQL keduanya ditentukan ketika mencoba untuk membuat sebuah klaster, maka akan terjadi kesalahan validasi dan permintaan pembuatan klaster gagal.

    • PrestoSQL didukung pada klaster single-master dan muti-master. Pada klaster multi-master, metastore Hive eksternal diperlukan untuk menjalankan PrestoSQL atau PrestoDB. Lihat Aplikasi yang didukung di Klaster EMR dengan Beberapa Simpul Utama.

  • Dukungan otentikasi auto ECR pada Apache Hadoop dan Apache Spark dengan Docker: pengguna Spark dapat menggunakan gambar Docker Hub dan Amazon Elastic Container Registry (Amazon ECR) untuk menentukan lingkungan dan dependensi perpustakaan.

    Konfigurasi Docker dan Jalankan Aplikasi Spark dengan Docker Menggunakan Amazon EMR 6.x.

  • EMR mendukung transaksi Apache Hive ACID: Amazon EMR 6.1.0 menambahkan dukungan untuk transaksi Hive ACID sehingga sesuai dengan sifat ACID database. Dengan fitur ini, Anda dapat menjalankanINSERT, UPDATE, DELETE, danMERGE operasi di Hive dikelola tabel dengan data di Amazon Simple Storage Service (Amazon S3). Ini adalah fitur kunci untuk kasus penggunaan seperti menyerap streaming, pernyataan ulang data, update massal menggunakan MERGE, dan mengubah dimensi secara perlahan. Untuk informasi lebih lanjut, termasuk contoh konfigurasi dan kasus penggunaan, lihat Amazon EMR mendukung transaksi Apache Hive ACID.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Ini adalah rilis untuk memperbaiki masalah dengan Penskalaan Amazon EMR saat gagal menskala/menurunkan skala klaster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar dan sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen Amazon EMR internal.

  • Daemon on-cluster EMR yang ditingkatkan untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • PERCIKAN-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama skala klaster saat Spark mengasumsikan semua node yang tersedia terdaftar deny-listed.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan di YARN menonaktifkan ketika cluster mencoba untuk meningkatkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster Amazon EMR dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti menurunkan skala dan pengiriman langkah gagal untuk klaster Amazon EMR yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster Amazon EMR tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi dengan aman dengan HDFS/YARN yang berjalan pada node master.

  • Rilis Amazon EMR yang lebih baru memperbaiki masalah dengan batas “Maksimal file terbuka” pada AL2 yang lebih tua di Amazon EMR. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru sekarang menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi.

  • Apache Flink tidak didukung pada EMR 6.0.0, tetapi didukung pada EMR 6.1.0 dengan Flink 1.11.0. Ini adalah versi pertama Flink yang secara resmi mendukung Hadoop 3. Lihat Pengumuman Rilis Apache Flink 1.11.0.

  • Ganglia telah dihapus dari bundel paket default EMR 6.1.0.

Masalah diketahui
  • Turunkan batas “Maksimal file terbuka” pada AL2 yang lebih tua [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit lebih rendah untuk “Maksimal file terbuka” ketika klaster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah akan menyebabkan munculnya kesalahan “Terlalu banyak file terbuka” saat mengirimkan tugas Spark. Dalam rilis yang terdampak, Amazon EMR default AMI memiliki pengaturan ulimit default 4096 untuk “Maksimal file terbuka,” yang lebih rendah dari batas file 65536 di Amazon Linux 2 AMI terbaru. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi Amazon EMR lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit instans-pengendali di jumlah maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Atur ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • penting

    Amazon EMR 6.1.0 dan 6.2.0 mempunyai masalah performa yang secara kritis dapat mempengaruhi semua operasi insert, upsert, dan delete Hudi. Jika Anda berencana untuk menggunakan Hudi dengan Amazon EMR 6.1.0 atau 6.2.0, maka Anda harus menghubungi dukungan AWS untuk mendapatkan Hudi RPM yang telah di-patch.

  • Jika Anda mengatur konfigurasi pengumpulan sampah kustom dengan spark.driver.extraJavaOptions dan spark.executor.extraJavaOptions, ini akan mengakibatkan gagal peluncuran driver/pelaksana dengan EMR 6.1 karena konfigurasi pengumpulan sampah yang bertentangan. Dengan EMR Rilis 6.1.0, Anda harus menentukan konfigurasi pengumpulan sampah Spark kustom untuk driver dan pelaksana dengan properti spark.driver.defaultJavaOptions dan spark.executor.defaultJavaOptions sebagai gantinya. Baca selengkapnya di Lingkungan Waktu Aktif Apache Spark dan Mengkonfigurasi Pengumpulan Sampah Spark di Amazon EMR 6.1.0.

  • Menggunakan Pig dengan Oozie (dan dalam Hue, karena Hue menggunakan tindakan Oozie untuk menjalankan skrip Pig), akan menghasilkan kesalahan di mana perpustakaan native-lzo tidak dapat dimuat. Pesan kesalahan ini adalah informasi dan tidak memblokir Pig sehingga tidak berjalan.

  • Support Hudi Concurrency: Saat ini Hudi tidak mendukung tulis bersamaan ke tabel Hudi tunggal. Selain itu, Hudi membatalkan setiap perubahan yang dilakukan oleh penulis yang sedang berlangsung sebelum mengizinkan penulis baru untuk memulai. Tulis bersamaan dapat mengganggu mekanisme ini dan memperkenalkan kondisi ras, yang dapat menyebabkan korupsi data. Anda harus memastikan bahwa sebagai bagian dari alur kerja pengolahan data Anda, hanya ada satu penulis Hudi yang beroperasi terhadap tabel Hudi setiap saat. Hudi tidak mendukung beberapa pembaca bersamaan yang beroperasi terhadap tabel Hudi yang sama.

  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus menjalankan kembali perintah di atas setelah tiket Kerberos berakhir.

  • Ada masalah di Amazon EMR 6.1.0 yang mempengaruhi klaster yang menjalankan Presto. Setelah perpanjangan jangka waktu (hari), klaster mungkin membuang kesalahan seperti, “su: gagal untuk mengeksekusi/bin/bash: Sumber daya untuk sementara tidak tersedia” atau “permintaan shell gagal di saluran 0". Masalah ini disebabkan oleh proses internal Amazon EMR (InstanceController) yang menghasilkan terlalu banyak proses ringan (LWP), yang akhirnya menyebabkan pengguna Hadoop melebihi batas nproc mereka. Hal ini mencegah pengguna dari membuka proses tambahan. Solusi untuk masalah ini adalah untuk meng-upgrade ke EMR 6.2.0.

Rilis 6.0.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 6.0.0.

Tanggal rilis awal: 10 Maret 2020

Aplikasi-aplikasi yang didukung
  • AWS SDK for Java versi 1.11.711

  • Ganglia versi 3.7.2

  • Hadoop versi 3.2.1

  • HBase versi 2.2.3

  • HCatalog versi 3.1.2

  • Hive versi 3.1.2

  • Hudi versi 0.5.0-incubating

  • Hue versi 4.4.0

  • JupyterHub versi 1.0.0

  • Livy versi 0.6.0

  • MXNet versi 1.5.1

  • Oozie versi 5.1.0

  • Phoenix versi 5.0.0

  • Presto versi 0.230

  • Spark versi 2.4.4

  • TensorFlow versi 1.14.0

  • Zeppelin versi 0.9.0-SNAPSHOT

  • Zookeeper versi 3.4.14

  • Konektor dan driver: DynamoDB Connector 4.14.0

catatan

Flink, Sqoop, Babi, dan Mahout tidak tersedia di Amazon EMR versi 6.0.0.

Fitur baru
  • YARN Docker Runtime Support - aplikasi YARN, seperti tugas Spark, sekarang dapat berjalan dalam konteks kontainer Docker. Hal ini memungkinkan Anda untuk dengan mudah menentukan dependensi dalam gambar Docker tanpa perlu menginstal perpustakaan kustom di klaster Amazon EMR Anda. Untuk informasi selengkapnya, lihat Konfigurasi integrasi Docker dan Jalankan aplikasi Spark dengan Docker menggunakan Amazon EMR 6.0.0.

  • Hive LLAP Support - Hive sekarang mendukung modus eksekusi LLAP untuk meningkatkan performa kueri. Untuk informasi selengkapnya, lihat Menggunakan Hive LLAP.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Ini adalah rilis untuk memperbaiki masalah dengan Penskalaan Amazon EMR saat gagal menskala/menurunkan skala klaster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar dan sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen Amazon EMR internal.

  • Daemon on-cluster EMR yang ditingkatkan untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • PERCIKAN-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama skala klaster saat Spark mengasumsikan semua node yang tersedia terdaftar deny-listed.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan di YARN menonaktifkan ketika cluster mencoba untuk meningkatkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster Amazon EMR dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti menurunkan skala dan pengiriman langkah gagal untuk klaster Amazon EMR yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster Amazon EMR tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi dengan aman dengan HDFS/YARN yang berjalan pada node master.

  • Rilis Amazon EMR yang lebih baru memperbaiki masalah dengan batas “Maksimal file terbuka” pada AL2 yang lebih tua di Amazon EMR. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru sekarang menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi.

  • Amazon Linux

    • Amazon Linux 2 adalah sistem operasi untuk seri rilis EMR 6.x.

    • systemd digunakan untuk pengelolaan layanan bukan upstart yang digunakan dalam Amazon Linux 1.

  • Java Development Kit (JDK)

    • Coretto JDK 8 adalah JDK default untuk seri rilis EMR 6.x.

  • Scala

    • Scala 2.12 digunakan dengan Apache Spark dan Apache Livy.

  • Python 3

    • Python 3 sekarang adalah versi default Python di EMR.

  • Label simpul YARN

    • Dimulai dengan Amazon EMR seri rilis 6.x, fitur label simpul YARN dinonaktifkan secara default. Proses utama aplikasi dapat berjalan pada kedua inti dan tugas simpul secara default. Anda dapat mengaktifkan fitur label simpul YARN dengan mengkonfigurasi properti berikut: yarn.node-labels.enabled dan yarn.node-labels.am.default-node-label-expression. Untuk informasi selengkapnya, lihat Memahami Simpul Utama, Inti, dan Simpul Tugas.

Masalah diketahui
  • Turunkan batas “Maksimal file terbuka” pada AL2 yang lebih tua [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit lebih rendah untuk “Maksimal file terbuka” ketika klaster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah akan menyebabkan munculnya kesalahan “Terlalu banyak file terbuka” saat mengirimkan tugas Spark. Dalam rilis yang terdampak, Amazon EMR default AMI memiliki pengaturan ulimit default 4096 untuk “Maksimal file terbuka,” yang lebih rendah dari batas file 65536 di Amazon Linux 2 AMI terbaru. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi Amazon EMR lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit instans-pengendali di jumlah maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Atur ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Shell interaktif Spark PySpark, termasuk, SparkR, dan spark-shell, tidak mendukung menggunakan Docker dengan perpustakaan tambahan.

  • Untuk menggunakan Python 3 dengan Amazon EMR versi 6.0.0, Anda harus menambahkan PATH ke yarn.nodemanager.env-whitelist.

  • Fungsionalitas Live Long and Proses (LLAP) tidak didukung saat Anda menggunakan Glue Katalog Data AWS sebagai metastore untuk Hive.

  • Bila menggunakan Amazon EMR 6.0.0 dengan integrasi Spark dan Docker, Anda harus mengkonfigurasi instans di klaster Anda dengan tipe instans yang sama dan jumlah volume EBS yang sama untuk menghindari gagal ketika mengirimkan tugas Spark dengan waktu aktif Docker.

  • Di Amazon EMR 6.0.0, HBase pada mode penyimpanan Amazon S3 dipengaruhi oleh masalah HBASE-24286. HBase utama tidak dapat menginisialisasi ketika klaster dibuat menggunakan data S3 yang ada.

  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.30.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.30.1. Perubahan bersifat relatif terhadap 5.30.0.

Tanggal rilis awal: 30 Juni 2020

Tanggal diperbarui: 24 Agustus 2020

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Rilis Amazon EMR yang lebih baru memperbaiki masalah dengan batas “Maksimal file terbuka” pada AL2 yang lebih tua di Amazon EMR. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru sekarang menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi.

  • Masalah di mana proses pengendali instans melahirkan jumlah proses yang tak terbatas telah diperbaiki.

  • Masalah di mana Hue tidak dapat menjalankan kueri Hive, menampilkan pesan "basis data terkunci" dan mencegah eksekusi kueri telah diperbaiki.

  • Perbaikan terhadap masalah Spark dalam mengaktifkan lebih banyak tugas untuk dijalankan secara bersamaan di klaster EMR.

  • Perbaikan terhadap masalah notebook Jupyter yang menyebabkan "kesalahan terlalu banyak file terbuka" di server Jupyter.

  • Perbaikan terhadap masalah dengan waktu mulai klaster.

Fitur baru
  • Antarmuka aplikasi persisten server linimasa Tez UI dan YARN tersedia dengan Amazon EMR versi 6.x, dan EMR versi 5.30.1 dan versi setelahnya. Akses tautan satu klik ke riwayat aplikasi persisten memungkinkan Anda mengakses riwayat tugas dengan cepat tanpa perlu menyiapkan proxy web melalui koneksi SSH. Log untuk klaster aktif dan yang dihentikan tersedia selama 30 hari setelah aplikasi berakhir. Untuk informasi selengkapnya, lihat Melihat Antarmuka Pengguna Aplikasi Persisten di Panduan Pengelolaan Amazon EMR.

  • API eksekusi EMR Notebook tersedia untuk mengeksekusi EMR notebooks melalui skrip atau baris perintah. Kemampuan untuk memulai, menghentikan, membuat daftar, dan menggambarkan eksekusi EMR notebooks tanpa konsol AWS memungkinkan Anda mengendalikan secara pemrograman EMR notebooks. Menggunakan sel notebook parameter, Anda dapat memberikan nilai parameter yang berbeda ke notebook tanpa harus membuat salinan notebook untuk setiap set baru nilai paramter. Lihat Tindakan API EMR. Untuk kode sampel, lihat Contoh perintah untuk menjalankan EMR Notebooks secara pemrograman.

Masalah diketahui
  • Turunkan batas “Maksimal file terbuka” pada AL2 yang lebih tua [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit lebih rendah untuk “Maksimal file terbuka” ketika klaster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah akan menyebabkan munculnya kesalahan “Terlalu banyak file terbuka” saat mengirimkan tugas Spark. Dalam rilis yang terdampak, Amazon EMR default AMI memiliki pengaturan ulimit default 4096 untuk “Maksimal file terbuka,” yang lebih rendah dari batas file 65536 di Amazon Linux 2 AMI terbaru. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi Amazon EMR lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit instans-pengendali di jumlah maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Atur ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • EMR Notebooks

    Fitur yang mengizinkan Anda untuk menginstal kernel dan perpustakaan Python tambahan pada simpul utama klaster dinonaktifkan secara default pada EMR versi 5.30.1. Untuk informasi selengkapnya tentang fitur ini, lihat Menginstal Kernels dan Perpustakaan Python pada Klaster Simpul Utama.

    Untuk mengaktifkan fitur, lakukan hal berikut ini:

    1. Pastikan bahwa kebijakan izin yang dilampirkan ke peran layanan untuk EMR Notebooks mengizinkan tindakan berikut ini:

      elasticmapreduce:ListSteps

      Untuk informasi selengkapnya, lihat Peran Layanan untuk EMR Notebooks.

    2. Gunakan AWS CLI untuk menjalankan langkah pada klaster yang mengatur EMR Notebooks seperti yang ditunjukkan dalam contoh berikut. Ganti us-east-1 dengan Daerah di mana klaster Anda berada. Untuk informasi selengkapnya, lihat Menambahkan Langkah-langkah untuk Klaster Menggunakan AWS CLI.

      aws emr add-steps --cluster-id MyClusterID --steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
  • Penskalaan terkelola

    Operasi penskalaan terkelola pada klaster 5.30.0 dan 5.30.1 tanpa Presto yang diinstal dapat menyebabkan gagal aplikasi atau menyebabkan grup instans seragam atau armada instans tetap berada di negara ARRESTED, terutama ketika operasi menurunkan skala diikuti dengan cepat oleh operasi menaikkan skala.

    Sebagai solusi, pilih Presto sebagai aplikasi untuk diinstal ketika Anda membuat sebuah klaster, walaupun tugas Anda tidak memerlukan Presto.

  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.30.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.30.0. Perubahan bersifat relatif terhadap 5.29.0.

Tanggal rilis awal: 13 Mei, 2020

Tanggal diperbarui: 25 Juni 2020

Upgrade
  • AWS SDK for Java telah di-upgrade ke versi 1.11.759

  • Amazon SageMaker Spark SDK telah di-upgrade ke versi 1.3.0

  • EMR Record Server telah di-upgrade ke versi 1.6.0

  • Flink telah di-upgrade ke versi 1.10.0

  • Ganglia telah di-upgrade ke versi 3.7.2

  • HBase telah di-upgrade ke versi 1.4.13

  • Hudi telah di-upgrade ke versi 0.5.2-incubating

  • Hue telah di-upgrade ke versi 4.6.0

  • Telah di-upgrade JupyterHub ke versi 1.1.0

  • Livy telah di-upgrade ke versi 0.7.0-incubating

  • Oozie telah di-upgrade ke versi 5.2.0

  • Presto telah di-upgrade ke versi 0.232

  • Spark telah di-upgrade ke versi 2.4.5

  • Konektor dan driver telah di-upgrade: Glue Amazon Connector 1.12.0; Amazon Kinesis Connector 3.5.0; EMR DynamoDB Connector 4.14.0

Fitur baru
  • EMR Notebooks – Bila digunakan dengan klaster EMR yang dibuat menggunakan 5.30.0, kernel EMR notebooks akan berjalan di klaster. Hal ini meningkatkan performa notebook dan mengizinkan Anda untuk menginstal dan menyesuaikan kernel. Anda juga dapat menginstal perpustakaan Python pada klaster simpul utama. Untuk informasi selengkapnya, lihat Menginstal dan Menggunakan Kernel dan Perpustakaan di Panduan Manajemen EMR.

  • Penskalaan Terkelola – Dengan Amazon EMR versi 5.30.0 dan versi yang lebih baru, Anda dapat mengaktifkan penskalaan terkelola EMR untuk secara otomatis menambah atau mengurangi jumlah instans atau unit di klaster Anda berdasarkan beban kerja. EMR terus-menerus mengevaluasi metrik klaster untuk membuat keputusan penskalaan yang akan mengoptimalkan klaster Anda dalam hal biaya dan kecepatan. Untuk informasi selengkapnya, lihat Penskalaan Sumber Daya Klaster di Panduan Pengelolaan Amazon EMR.

  • Mengenkripsi berkas log yang disimpan di Amazon S3 – Dengan Amazon EMR versi 5.30.0 dan versi setelahnya, Anda dapat mengenkripsi berkas log yang disimpan di Amazon S3 dengan kunci terkelola pelanggan AWS KMS. Untuk informasi selengkapnya, lihat Mengenkripsi berkas log yang disimpan di Amazon S3 di Panduan Pengelolaan Amazon EMR.

  • Support Amazon Linux 2 – Dalam EMR versi 5.30.0 dan setelahnya, EMR UseSamazon Linux 2 OS. AMI (Amazon Machine Image) kustom baru harus didasarkan pada AMI Amazon Linux 2. Untuk informasi selengkapnya, lihat Menggunakan AMI Kustom.

  • Penskalaan Otomatis Presto Graceful – Klaster EMR menggunakan 5.30.0 dapat diatur dengan periode waktu habis penskalaan otomatis yang memberikan Presto waktu tugas untuk menyelesaikan running-nya sebelum simpul mereka dinonaktifkan. Untuk informasi selengkapnya, lihat Menggunakan penskalaan otomatis Presto dengan Graceful Decommission.

  • Pembuatan Instans Armada dengan opsi strategi alokasi baru – Opsi strategi alokasi baru tersedia di EMR versi 5.12.1 dan versi setelahnya. Ia menawarkan penyediaan klaster yang lebih cepat, alokasi tempat yang lebih akurat, dan interupsi instans spot yang sedikit. Pembaruan untuk peran layanan EMR non-default diperlukan. Lihat Mengkonfigurasi Armada Instans.

  • sudo systemctl berhenti dan sudo systemctl memulai perintah – Dalam EMR versi 5.30.0 dan versi setelahnya, yang menggunakan Amazon Linux 2 OS, EMR menggunakan perintah sudo systemctl stop dan sudo systemctl start untuk memulai ulang layanan. Untuk informasi selengkapnya, lihat Bagaimana cara me-restart layanan di Amazon EMR?.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • EMR versi 5.30.0 tidak menginstal Ganglia secara default. Anda dapat secara eksplisit memilih Ganglia untuk menginstalnya ketika Anda membuat sebuah klaster.

  • Optimalisasi performa Spark.

  • Optimalisasi performa Presto.

  • Python 3 adalah default untuk Amazon EMR versi 5.30.0 dan versi setelahnya.

  • Grup keamanan terkelola default untuk akses layanan di subnet privat telah diperbarui dengan aturan baru. Jika Anda menggunakan grup keamanan kustom untuk akses layanan, Anda harus menyertakan aturan yang sama sesuai grup keamanan terkelola default. Untuk informasi selengkapnya, lihat Grup Keamanan Terkelola-Amazon EMR untuk Akses Layanan (Subnet Privat). Jika Anda menggunakan peran layanan kustom untuk Amazon EMR, Anda harus memberikan izin untuk ec2:describeSecurityGroups sehingga EMR dapat melakukan validasi apakah grup keamanan dibuat dengan benar. Jika Anda menggunakan EMR_DefaultRole, izin ini telah disertakan dalam kebijakan terkelola default.

Masalah diketahui
  • Turunkan batas “Maksimal file terbuka” pada AL2 yang lebih tua [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit lebih rendah untuk “Maksimal file terbuka” ketika klaster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah akan menyebabkan munculnya kesalahan “Terlalu banyak file terbuka” saat mengirimkan tugas Spark. Dalam rilis yang terdampak, Amazon EMR default AMI memiliki pengaturan ulimit default 4096 untuk “Maksimal file terbuka,” yang lebih rendah dari batas file 65536 di Amazon Linux 2 AMI terbaru. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi Amazon EMR lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit instans-pengendali di jumlah maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Restart InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Atur ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Penskalaan terkelola

    Operasi penskalaan terkelola pada klaster 5.30.0 dan 5.30.1 tanpa Presto yang diinstal dapat menyebabkan gagal aplikasi atau menyebabkan grup instans seragam atau armada instans tetap berada di negara ARRESTED, terutama ketika operasi menurunkan skala diikuti dengan cepat oleh operasi menaikkan skala.

    Sebagai solusi, pilih Presto sebagai aplikasi untuk diinstal ketika Anda membuat sebuah klaster, walaupun tugas Anda tidak memerlukan Presto.

  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus menjalankan kembali perintah di atas setelah tiket Kerberos berakhir.

  • Mesin basis data default untuk Hue 4.6.0 adalah SQLite, yang menyebabkan masalah ketika Anda mencoba untuk menggunakan Hue dengan basis data eksternal. Untuk memperbaikinya, atur engine di klasifikasi konfigurasi hue-ini Anda menjadi mysql. Masalah ini telah diperbaiki di Amazon EMR versi 5.30.1.

Rilis 5.29.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.29.0. Perubahan bersifat relatif terhadap 5.28.1.

Tanggal rilis awal: 17 Januari 2020

Upgrade
  • Telah di-upgradeAWS SDK for Java ke versi 1.11.682

  • Hive telah di-upgrade ke versi 2.3.6

  • Flink telah di-upgrade ke versi 1.9.1

  • EmrFS telah di-upgrade ke versi 2.38.0

  • EMR DynamoDB Connector telah di-upgrade ke versi 4.13.0

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Spark

    • Optimalisasi performa Spark.

  • EMRFS

    • Pembaruan Panduan Pengelolaan untuk pengaturan default emrfs-site.xml untuk tampilan konsisten.

Masalah yang diketahui
  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.28.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.28.1. Perubahan bersifat relatif terhadap 5.28.0.

Tanggal rilis awal: 10 Januari 2020

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Spark

    • Masalah kompatibilitas Spark yang telah diperbaiki.

  • CloudWatch Metrik

    • Diperbaiki Amazon CloudWatch Metrik penerbitan pada klaster EMR dengan beberapa simpul utama.

  • Pesan log telah dinonaktifkan

    • Pesan log SALAH, "... menggunakan versi lama (<4.5.8) dari Apache http client." telah dinonaktifkan

Masalah yang diketahui
  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.28.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.28.0. Perubahan bersifat relatif terhadap 5.27.0.

Tanggal rilis awal: 12 November 2019

Upgrade
  • Flink telah di-upgrade ke versi 1.9.0

  • Hive telah di-upgrade ke versi 2.3.6

  • MXNet telah di-upgrade ke versi 1.5.1

  • Phoenix telah di-upgrade ke versi 4.14.3

  • Presto telah di-upgrade ke versi 0.227

  • Zeppelin telah di-upgrade ke versi 0.8.2

Fitur baru
  • Apache Hudi sekarang tersedia untuk diinstall Amazon EMR ketika Anda membuat sebuah klaster. Untuk informasi selengkapnya, lihat Hudi.

  • (25 November 2019) Sekarang Anda dapat memilih untuk menjalankan beberapa langkah secara paralel untuk meningkatkan pemanfaatan klaster dan menghemat biaya. Anda juga dapat membatalkan langkah-langkah yang tertunda dan sedang berjalan. Untuk informasi selengkapnya, lihat Bekerja dengan Langkah-langkah Menggunakan AWS CLI dan Konsol.

  • (3 Desember 2019) Sekarang Anda dapat membuat dan menjalankan klaster EMR di AWS Outposts. AWS Outpostsmengaktifkan layanan, infrastruktur, dan model operasi AWS asli di fasilitas on-premise. Dalam lingkungan AWS Outposts, Anda dapat menggunakan API, alat, dan infrastruktur AWS yang Anda gunakan di cloud AWS. Untuk informasi selengkapnya, lihat Klaster EMR pada AWS Outposts.

  • (11 Maret 2020) Dimulai dengan Amazon EMR versi 5.28.0, Anda dapat membuat dan menjalankan klaster Amazon EMR pada subnet AWS Local Zones sebagai perpanjangan logis dari Wilayah AWS yang mendukung Local Zones. Sebuah Local Zones mengaktifkan fitur Amazon EMR dan subset dari layanan AWS, seperti layanan komputasi dan penyimpanan, untuk ditempatkan lebih dekat dengan pengguna, memberikan akses latensi yang sangat rendah ke aplikasi yang berjalan secara lokal. Untuk daftar Local Zones yang tersedia, lihat AWS Local Zones. Untuk informasi tentang cara mengakses AWS Local Zones yang tersedia, lihat Wilayah, Availability Zone, dan Local Zones.

    Local Zones saat ini tidak mendukung Amazon EMR Notebooks dan tidak mendukung koneksi langsung ke Amazon EMR yang menggunakan antarmuka VPC endpoint (AWS PrivateLink).

Perubahan, penyempurnaan, dan masalah yang diselesaikan
Masalah yang diketahui
  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.27.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.27.0. Perubahan bersifat relatif terhadap 5.26.0.

Tanggal rilis awal: 23 September 2019

Upgrade
  • AWS SDK for Java1.11.615

  • Flink versi 1.8.1

  • JupyterHub 1.0.0

  • Spark versi 2.4.4

  • Tensorflow versi 1.14.0

  • Konektor dan driver:

    • DynamoDB Connector 4.12.0

Fitur baru
  • (24 Oktober 2019) Fitur baru berikut di notebook EMR tersedia dengan semua rilis Amazon EMR.

    • Anda sekarang dapat mengasosiasikan repositori Git dengan EMR notebooks untuk menyimpan notebook Anda dalam lingkungan terkendali versi. Anda dapat berbagi kode dengan rekan-rekan dan menggunakan kembali notebook Jupyter yang ada melalui repositori Git jauh. Untuk informasi selengkapnya, lihat Associate Repositori Git dengan Amazon EMR Notebooks di Panduan Pengelolaan Amazon EMR.

    • utilitas nbdime sekarang tersedia di EMR notebooks untuk menyederhanakan membandingkan dan menggabungkan notebook.

    • EMR Notebooks sekarang mendukung JupyterLab. JupyterLab adalah lingkungan pengembangan interaktif berbasis web yang sepenuhnya kompatibel dengan notebook Jupyter. Sekarang Anda dapat memilih untuk membuka notebook Anda di editor notebook Jupyter JupyterLab atau Jupyter.

  • (30 Oktober 2019) Dengan Amazon EMR versi 5.25.0 dan versi setelahnya, Anda dapat terhubung ke UI server riwayat Spark dari halaman klaster Ringkasan atau tab Riwayat aplikasi di konsol. Alih-alih menyiapkan proxy web melalui koneksi SSH, Anda dapat dengan cepat mengakses UI server riwayat Spark untuk melihat metrik aplikasi dan mengakses berkas log yang relevan untuk klaster aktif dan yang dihentikan. Untuk informasi selengkapnya, lihat Akses off-klaster ke antarmuka pengguna aplikasi persisten di Panduan Pengelolaan Amazon EMR.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
Masalah yang diketahui
  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.26.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.26.0. Perubahan relatif terhadap 5.25.0.

Tanggal rilis awal: 8 Agustus 2019

Tanggal diperbarui: 19 Agustus 2019

Upgrade
  • AWS SDK for Java1.11.595

  • HBase versi 1.4.10

  • Phoenix versi 4.14.2

  • Konektor dan driver:

    • DynamoDB Connector versi 4.11.0

    • MariaDB Connector versi 2.4.2

    • Amazon Redshift JDBC Driver versi 1.2.32.1056

Fitur baru
  • (Beta) Dengan Amazon EMR 5.26.0, Anda dapat melakukan peluncuran klaster yang terintegrasi dengan Lake Formation. Integrasi ini menyediakan pem-filter-an data yang halus, akses tingkat-kolom ke basis data dan tabel di Katalog Data Glue AWS. Hal ini juga mengaktifkan sistem masuk tunggal federasi ke EMR Notebooks atau Apache Zeppelin dari sistem identitas korporasi. Untuk informasi selengkapnya, lihat Mengintegrasikan Amazon EMR dengan AWS Lake Formation (Beta).

  • (19 Agustus 2019) Blok akses publik Amazon EMR sekarang tersedia dengan semua rilis Amazon EMR yang mendukung grup keamanan. Blok publik akses adalah pengaturan seluruh akun yang diterapkan untuk setiap Wilayah AWS. Blok akses publik mencegah klaster melakukan peluncuran ketika setiap grup keamanan yang terkait dengan klaster memiliki aturan yang mengizinkan lalu lintas masuk dari IPv4 0.0.0.0/0 atau IPv6 ::/0 (akses publik) pada port, kecuali port ditetapkan sebagai pengecualian. Port 22 adalah pengecualian secara default. Untuk informasi lebih lanjut, lihat Menggunakan Blok Publik Akses Amazon EMR dalam Panduan Pengelolaan EMR Amazon.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • EMR Notebooks

    • Dengan EMR 5.26.0 dan versi yang lebih baru, EMR Notebooks mendukung perpustakaan Python notebook-scoped selain perpustakaan Python default. Anda dapat menginstal perpustakaan notebook-scoped dari dalam notebook editor tanpa harus membuat ulang klaster atau melampirkan ulang notebook untuk klaster. Perpustakaan notebook-scoped dibuat dalam lingkungan virtual Python, sehingga mereka hanya berlaku untuk sesi notebook saat ini. Ini mengizinkan Anda mengisolasi dependensi notebook. Untuk informasi selengkapnya, lihat Menggunakan Perpustakaan Notebook Scoped di Panduan Pengelolaan Amazon EMR.

  • EMRFS

    • Anda dapat mengaktifkan fitur verifikasi ETag (Beta) dengan mengatur fs.s3.consistent.metadata.etag.verification.enabled menjadi true. Dengan fitur ini, EMRFS menggunakan Amazon S3 ETags untuk memverifikasi bahwa objek yang dibaca adalah versi paling baru yang tersedia. Fitur ini sangat membantu untuk kasus read-after-update penggunaan di mana file di Amazon S3 ditimpa, tetapi tetap menggunakan nama yang sama. Kemampuan verifikasi ETag ini saat ini tidak bekerja dengan S3 Select. Untuk informasi selengkapnya, lihat Mengkonfigurasi Tampilan Konsisten.

  • Spark

    • Optimasi berikut sekarang diaktifkan secara default: partisi pemangkasan dinamis, DISTINCT sebelum INTERSECT, perbaikan dalam inferensi statistik rencana SQL untuk JOIN diikuti oleh kueri DISTINCT, meratakan sub-kueri scalar, join reorder yang dioptimalkan, dan bloom filter join. Untuk informasi selengkapnya, lihat Mengoptimalkan Performa Spark.

    • Peningkatan seluruh pembuatan kode tahap untuk Sort Merge Join.

    • Peningkatan fragmen kueri dan penggunaan kembali subkueri.

    • Perbaikan untuk melakukan pra-alokasi pelaksana pada saat memulai Spark.

    • Bloom filter join tidak lagi diterapkan ketika join sisi yang lebih kecil mencakup petunjuk siaran.

  • Tez

    • Menyelesaikan masalah dengan Tez. Tez UI sekarang bekerja pada sebuah klaster EMR dengan beberapa simpul utama.

Masalah yang diketahui
  • Peningkatan seluruh kemampuan tahap kode generasi untuk Sort Merge Join dapat meningkatkan tekanan memori ketika diaktifkan. Optimalisasi ini meningkatkan performa, tetapi dapat mengakibatkan coba lagi atau gagal tugas jika spark.yarn.executor.memoryOverheadFactor tidak disetel untuk memberikan memori yang cukup. Untuk menonaktifkan fitur ini, atur spark.sql.sortMergeJoinExec.extendedCodegen.enabled ke SALAH.

  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.25.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.25.0. Perubahan bersifat relatif terhadap 5.24.1.

Tanggal rilis awal: 17 Juli 2019

Tanggal diperbarui: 30 Ok2019

Amazon EMR 5.25.0

Upgrade
  • AWS SDK for Java1.11.566

  • Hive versi 2.3.5

  • Presto versi 0.220

  • Spark versi 2.4.3

  • TensorFlow 1.13.1

  • Tez versi 0.9.2

  • Zookeeper versi 3.4.14

Fitur baru
  • (30 Oktober 2019) Dimulai dengan Amazon EMR versi 5.25.0, Anda dapat terhubung ke UI server riwayat Spark dari halaman klaster Ringkasan atau tab Riwayat aplikasi di konsol. Alih-alih menyiapkan proxy web melalui koneksi SSH, Anda dapat dengan cepat mengakses UI server riwayat Spark untuk melihat metrik aplikasi dan mengakses berkas log yang relevan untuk klaster aktif dan yang dihentikan. Untuk informasi selengkapnya, lihat Akses off-klaster ke antarmuka pengguna aplikasi persisten di Panduan Pengelolaan Amazon EMR.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Spark

    • Peningkatan performa beberapa join dengan menggunakan filter Bloom untuk melakukan pra-filter input. Optimalisasi dinonaktifkan secara default dan dapat diaktifkan dengan mengatur parameter konfigurasi Spark dari spark.sql.bloomFilterJoin.enabled ke true.

    • Peningkatan performa pembuatan grup menurut kolom tipe string.

    • Peningkatan memori eksekutor default Spark dan konfigurasi inti tipe instans R4 untuk klaster tanpa HBase yang diinstal.

    • Penyelesaian masalah sebelumnya terkait dengan fitur pemangkasan partisi dinamis di mana tabel yang dipangkas harus berada di sisi kiri join.

    • Peningkatan DISTINCT sebelum optimasi INTERSECT untuk diterapkan pada kasus tambahan yang melibatkan nama alias.

    • Peningkatan inferensi statistik rencana SQL untuk JOIN yang diikuti oleh kueri DISTINCT. Perbaikan ini dinonaktifkan secara default dan dapat diaktifkan dengan mengatur parameter konfigurasi Spark dari spark.sql.statsImprovements.enabled ke true. Optimasi ini diperlukan oleh fitur Distinct before Intersect dan akan diaktifkan secara otomatis ketika spark.sql.optimizer.distinctBeforeIntersect.enabled diatur ke true.

    • Join order telah dioptimalkan berdasarkan ukuran tabel dan filter. Optimalisasi ini dinonaktifkan secara default dan dapat diaktifkan dengan menetapkan parameter konfigurasi Spark dari spark.sql.optimizer.sizeBasedJoinReorder.enabled ke true.

    Untuk informasi selengkapnya, lihat Mengoptimalkan Performa Spark.

  • EMRFS

    • Pengaturan EMRFS, fs.s3.buckets.create.enabled, sekarang dinonaktifkan secara default. Dengan pengujian, kami menemukan bahwa dengan menonaktifkan pengaturan ini akan meningkatkan performa dan mencegah pembuatan bucket S3 yang tidak disengaja. Jika aplikasi Anda bergantung pada fungsi ini, maka Anda dapat mengaktifkannya dengan mengatur properti fs.s3.buckets.create.enabled ke true di klasifikasi konfigurasi emrfs-site. Untuk informasi, lihat Menyediakan Konfigurasi saat Membuat Klaster.

  • Enkripsi Disk Lokal dan Peningkatan Enkripsi S3 dalam Konfigurasi Keamanan (5 Agustus 2019)

    • Pemisahan pengaturan enkripsi Amazon S3 dari pengaturan enkripsi disk lokal dalam pengaturan konfigurasi keamanan.

    • Penambahan opsi untuk mengaktifkan enkripsi EBS dengan rilis 5.24.0 dan versi setelahnya. Memilih opsi ini akan mengenkripsi volume perangkat asal selain volume penyimpanan. Versi sebelumnya diharuskan menggunakan AMI kustom untuk mengenkripsi volume perangkat asal.

    • Untuk informasi selengkapnya, lihat Opsi Enkripsi di Panduan Pengelolaan Amazon EMR.

Masalah yang diketahui
  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.24.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.24.1. Perubahan bersifat relatif terhadap 5.24.0.

Tanggal rilis awal: 26 Juni 2019

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Pembaruan default Amazon Linux AMI untuk EMR untuk menyertakan pembaruan keamanan kernel Linux penting, termasuk TCP SACK Denial of Service Issue (AWS-2019-005).

Masalah yang diketahui
  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.24.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.24.0. Perubahan bersifat relatif terhadap 5.23.0.

Tanggal rilis awal: 11 Juni 2019

Tanggal diperbarui: 5 Agustus 2019

Upgrade
  • Flink versi 1.8.0

  • Hue versi 4.4.0

  • JupyterHub 0.9.6

  • Livy versi 0.6.0

  • MxNet 1.4.0

  • Presto versi 0.219

  • Spark versi 2.4.2

  • AWS SDK for Java1.11.546

  • Konektor dan driver:

    • DynamoDB Connector versi 4.9.0

    • MariaDB Connector versi 2.4.1

    • Amazon Redshift JDBC Driver versi 1.2.27.1051

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Spark

    • Penambahan optimasi untuk memangkas partisi secara dinamis. Optimalisasi dinonaktifkan secara default. Untuk mengaktifkannya, atur parameter konfigurasi Spark dari spark.sql.dynamicPartitionPruning.enabled ke true.

    • Peningkatan performa kueri INTERSECT. Optimalisasi ini dinonaktifkan secara default. Untuk mengaktifkannya, atur parameter konfigurasi Spark dari spark.sql.optimizer.distinctBeforeIntersect.enabled ke true.

    • Penambahan optimalisasi untuk meratakan subkueri scalar dengan agregat yang menggunakan relasi yang sama. Optimalisasi dinonaktifkan secara default. Untuk mengaktifkannya, atur parameter konfigurasi Spark dari spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabled ke true.

    • Peningkatan seluruh pembuatan kode tahap.

    Untuk informasi selengkapnya, lihat Mengoptimalkan Performa Spark.

  • Enkripsi Disk Lokal dan Peningkatan Enkripsi S3 dalam Konfigurasi Keamanan (5 Agustus 2019)

    • Pemisahan pengaturan enkripsi Amazon S3 dari pengaturan enkripsi disk lokal dalam pengaturan konfigurasi keamanan.

    • Penambahan opsi untuk mengaktifkan enkripsi EBS. Memilih opsi ini akan mengenkripsi volume perangkat asal selain volume penyimpanan. Versi sebelumnya diharuskan menggunakan AMI kustom untuk mengenkripsi volume perangkat asal.

    • Untuk informasi selengkapnya, lihat Opsi Enkripsi di Panduan Pengelolaan Amazon EMR.

Masalah yang diketahui
  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.23.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.23.0. Perubahan bersifat relatif terhadap 5.22.0.

Tanggal rilis awal: 1 April 2019

Tanggal diperbarui: 30 April 2019

Upgrade
  • AWS SDK for Java1.11.519

Fitur baru
  • (30 April 2019) Dengan Amazon EMR 5.23.0 dan versi yang lebih baru, Anda dapat melakukan peluncuran klaster dengan tiga simpul utama untuk mendukung ketersediaan tinggi aplikasi-aplikasi seperti BEARN Resource Manager, HDFS NameNode, Spark, Hive, dan Ganglia. Simpul utama tidak lagi berpotensi menjadi satu titik gagal dengan fitur ini. Jika salah satu simpul utama gagal, maka Amazon EMR akan secara otomatis mengarahkan ke simpul utama siaga dan menggantikan simpul utama yang gagal dengan yang baru dengan konfigurasi yang sama dan tindakan bootstrap. Untuk informasi selengkapnya, lihat Merencanakan dan Mengkonfigurasi Simpul Utama.

Masalah diketahui
  • Tez UI (Telah diperbaiki di Amazon EMR versi rilis 5.26.0)

    Tez UI tidak bekerja pada klaster EMR dengan beberapa simpul utama.

  • Hue (Telah diperbaiki di Amazon EMR versi rilis 5.24.0)

    • Hue yang berjalan di Amazon EMR tidak mendukung Solr. Dimulai dengan Amazon EMR versi rilis 5.20.0, masalah kesalahan konfigurasi menyebabkan Solr diaktifkan dan pesan kesalahan tidak berbahaya muncul mirip dengan berikut ini:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Untuk mencegah pesan kesalahan Solr muncul:

      1. Connect ke baris perintah simpul utama menggunakan SSH.

      2. Gunakan editor teks untuk membuka file hue.ini. Misalnya:

        sudo vim /etc/hue/conf/hue.ini

      3. Cari istilah iniappblacklist dan ubah baris menjadi seperti berikut:

        appblacklist = search
      4. Simpan perubahan dan mulai ulang Hue seperti yang ditunjukkan dalam contoh berikut:

        sudo stop hue; sudo start hue
  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.22.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.22.0. Perubahan bersifat relatif terhadap 5.21.0.

penting

Dimulai dengan rilis Amazon EMR versi 5.22.0, Amazon EMR menggunakan Tanda Tangan Versi 4 AWS secara eksklusif untuk melakukan autentikasi permintaan ke Amazon S3. Amazon EMR versi rilis sebelumnya menggunakan Tanda Tangan Versi 2 AWS dalam beberapa kasus, kecuali catatan rilis menunjukkan bahwa Tanda Tangan Versi 4 digunakan secara eksklusif. Untuk informasi selengkapnya, lihat Melakukan Autentikasi Permintaan (Tanda Tangan Versi 4 AWS) dan Melakukan Autentikasi Permintaan (Tanda Tangan Versi 2 AWS) di Panduan Developer Amazon Simple Storage Service.

Tanggal rilis awal: 20 Maret 2019

Upgrade
  • Flink versi 1.7.1

  • HBase versi 1.4.9

  • Oozie versi 5.1.0

  • Phoenix versi 4.14.1

  • Zeppelin versi 0.8.1

  • Konektor dan driver:

    • DynamoDB Connector versi 4.8.0

    • MariaDB Connector versi 2.2.6

    • Amazon Redshift JDBC Driver versi 1.2.20.1043

Fitur baru
  • Konfigurasi EBS default yang telah dimodifikasi untuk tipe instans EC2 dengan penyimpanan EBS saja. Ketika Anda membuat sebuah klaster menggunakan Amazon EMR versi rilis 5.22.0 dan versi setelahnya, jumlah default penyimpanan EBS meningkat berdasarkan ukuran instans. Selain itu, kami membagi penyimpanan yang meningkat di beberapa volume, sehingga menghasilkan peningkatan performa IOPS. Jika Anda ingin menggunakan konfigurasi penyimpanan instans EBS yang berbeda, Anda dapat menentukannya ketika Anda membuat klaster EMR atau menambahkan simpul ke klaster yang ada. Untuk informasi selengkapnya tentang jumlah penyimpanan dan jumlah volume yang dialokasikan secara default untuk setiap jenis instans, lihat Default Penyimpanan EBS untuk Instans di Panduan Pengelolaan Amazon EMR.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Spark

    • Memperkenalkan properti konfigurasi baru untuk Spark di YARN, spark.yarn.executor.memoryOverheadFactor. Nilai properti ini adalah faktor menskalakan yang menentukan nilai overhead memori ke persentase memori pelaksana, dengan minimal 384 MB. Jika overhead memori diatur secara eksplisit menggunakan spark.yarn.executor.memoryOverhead, maka properti ini tidak berpengaruh. Nilai default-nya adalah 0.1875, mewakili 18,75%. Default ini, bagi Amazon EMR menghasilkan lebih banyak ruang dalam kontainer YARN untuk overhead memori pelaksana sebesar 10% dari default yang diatur secara internal oleh Spark. Default Amazon EMR sebesar 18,75% secara empiris menunjukkan lebih sedikit terjadinya gagal terkait memori dalam tolok ukur TPC-DS.

    • SPARK-26316 telah di-backporting untuk meningkatkan performa.

  • Di Amazon EMR versi 5.19.0, 5.20.0, dan 5.21.0, label simpul YARN disimpan dalam direktori HDFS. Dalam beberapa situasi, hal ini menyebabkan penundaan mulai simpul inti dan kemudian menyebabkan klaster mengalami habis waktu dan gagal peluncuran. Dimulai dengan Amazon EMR 5.22.0, masalah ini telah diselesaikan. Label simpul YARN disimpan pada disk lokal dari setiap simpul klaster, menghindari dependensi pada HDFS.

Masalah yang diketahui
  • Hue (Telah diperbaiki di Amazon EMR versi rilis 5.24.0)

    • Hue yang berjalan di Amazon EMR tidak mendukung Solr. Dimulai dengan Amazon EMR versi rilis 5.20.0, masalah kesalahan konfigurasi menyebabkan Solr diaktifkan dan pesan kesalahan tidak berbahaya muncul mirip dengan berikut ini:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Untuk mencegah pesan kesalahan Solr muncul:

      1. Connect ke baris perintah simpul utama menggunakan SSH.

      2. Gunakan editor teks untuk membuka file hue.ini. Misalnya:

        sudo vim /etc/hue/conf/hue.ini

      3. Cari istilah iniappblacklist dan ubah baris menjadi seperti berikut:

        appblacklist = search
      4. Simpan perubahan dan mulai ulang Hue seperti yang ditunjukkan dalam contoh berikut:

        sudo stop hue; sudo start hue
  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.21.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.21.1. Perubahan bersifat relatif terhadap 5.21.0.

Tanggal rilis awal: 18 Juli 2019

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Pembaruan default Amazon Linux AMI untuk EMR untuk menyertakan pembaruan keamanan kernel Linux penting, termasuk TCP SACK Denial of Service Issue (AWS-2019-005).

Masalah yang diketahui
  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.21.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.21.0. Perubahan bersifat relatif terhadap 5.20.0.

Tanggal rilis awal: 18 Februari 2019

Tanggal diperbarui: 3 April 2019

Upgrade
  • Flink versi 1.7.0

  • Presto versi 0.215

  • AWS SDK for Java1.11.479

Fitur baru
  • (3 April 2019) Dengan Amazon EMR versi 5.21.0 dan versi setelahnya, Anda dapat mengganti konfigurasi klaster dan menentukan klasifikasi konfigurasi tambahan untuk setiap grup instans di klaster yang berjalan. Anda dapat melakukan ini dengan menggunakan konsol Amazon EMR, AWS Command Line Interface (AWS CLI), atau AWS SDK. Untuk informasi selengkapnya, lihat Menyediakan Konfigurasi untuk Grup Instans dalam Klaster Berjalan.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
Masalah yang diketahui
  • Hue (Telah diperbaiki di Amazon EMR versi rilis 5.24.0)

    • Hue yang berjalan di Amazon EMR tidak mendukung Solr. Dimulai dengan Amazon EMR versi rilis 5.20.0, masalah kesalahan konfigurasi menyebabkan Solr diaktifkan dan pesan kesalahan tidak berbahaya muncul mirip dengan berikut ini:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Untuk mencegah pesan kesalahan Solr muncul:

      1. Connect ke baris perintah simpul utama menggunakan SSH.

      2. Gunakan editor teks untuk membuka file hue.ini. Misalnya:

        sudo vim /etc/hue/conf/hue.ini

      3. Cari istilah iniappblacklist dan ubah baris menjadi seperti berikut:

        appblacklist = search
      4. Simpan perubahan dan mulai ulang Hue seperti yang ditunjukkan dalam contoh berikut:

        sudo stop hue; sudo start hue
  • Tez

    • Masalah ini telah diperbaiki di Amazon EMR 5.22.0.

      Saat Anda terhubung ke UI Tez di http://MasterDNS: 8080/tez-ui melalui koneksi SSH ke simpul utama klaster, kesalahan "Adapter operasi gagal - server Timeline (ATS) berada di luar jangkauan. Entah karena rusak, atau CORS tidak diaktifkan" muncul, atau tugas tiba-tiba menunjukkan N/A.

      Hal ini disebabkan karena UI Tez membuat permintaan untuk YARN Timeline Server menggunakan localhost bukan nama host dari simpul utama. Solusinya, skrip tersedia untuk menjalankan sebagai tindakan bootstrap atau langkah. Skrip memperbarui nama host di file configs.env Tez. Untuk informasi selengkapnya dan lokasi skrip, lihat Petunjuk Bootstrap.

  • Di Amazon EMR versi 5.19.0, 5.20.0, dan 5.21.0, label simpul YARN disimpan dalam direktori HDFS. Dalam beberapa situasi, hal ini menyebabkan penundaan mulai simpul inti dan kemudian menyebabkan klaster mengalami habis waktu dan gagal peluncuran. Dimulai dengan Amazon EMR 5.22.0, masalah ini telah diselesaikan. Label simpul YARN disimpan pada disk lokal dari setiap simpul klaster, menghindari dependensi pada HDFS.

  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.20.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.20.0. Perubahan bersifat relatif terhadap 5.19.0.

Tanggal rilis awal: 18 Desember 2018

Tanggal diperbarui: 22 Januari 2019

Upgrade
  • Flink versi 1.6.2

  • HBase versi 1.4.8

  • Hive versi 2.3.4

  • Hue versi 4.3.0

  • MXNet versi 1.3.1

  • Presto versi 0.214

  • Spark versi 2.4.0

  • TensorFlow 1.12.0

  • Tez versi 0.9.1

  • AWS SDK for Java1.11.461

Fitur baru
  • (22 Januari 2019) Kerberos di Amazon EMR telah ditingkatkan untuk mendukung autentikasi prinsipal utama dari KDC eksternal. Ini memusatkan manajemen prinsipal utama karena beberapa klaster dapat berbagi satu KDC eksternal. Selain itu, KDC eksternal dapat memiliki kepercayaan lintas-alam dengan domain Direktori Aktif. Hal ini mengizinkan semua klaster untuk melakukan autentikasi prinsipal utama dari Direktori Aktif. Untuk informasi selengkapnya, lihat Menggunakan Autentikasi Kerberos di Panduan Pengelolaan Amazon EMR.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Default Amazon Linux AMI para Amazon EMR

    • Paket Python3 sudah ditingkatkan dari python 3.4 ke 3.6.

  • EMRFS S3-optimized committer

  • Hive

  • Glue dengan Spark dan Hive

    • Dalam EMR 5.20.0 atau yang lebih baru, partisi parallel pemangkasan diaktifkan secara otomatis untuk Spark dan Hive ketikaAWS Glue Katalog Data digunakan sebagai metastore tersebut. Perubahan ini secara signifikan mengurangi waktu perencanaan kueri dengan mengeksekusi beberapa permintaan secara paralel untuk mengambil partisi. Jumlah segmen yang dapat dieksekusi secara bersamaan berkisar antara 1 dan 10. Nilai default-nya adalah 5, yang merupakan pengaturan yang disarankan. Anda dapat mengubahnya dengan menentukan properti aws.glue.partition.num.segments dalam klasifikasi konfigurasi hive-site. Jika terjadi throttling, Anda dapat mematikan fitur ini dengan mengubah nilai-nya menjadi 1. Untuk informasi selengkapnya, lihat Struktur Segmen Glue AWS.

Masalah yang diketahui
  • Hue (Telah diperbaiki di Amazon EMR versi rilis 5.24.0)

    • Hue yang berjalan di Amazon EMR tidak mendukung Solr. Dimulai dengan Amazon EMR versi rilis 5.20.0, masalah kesalahan konfigurasi menyebabkan Solr diaktifkan dan pesan kesalahan tidak berbahaya muncul mirip dengan berikut ini:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Untuk mencegah pesan kesalahan Solr muncul:

      1. Connect ke baris perintah simpul utama menggunakan SSH.

      2. Gunakan editor teks untuk membuka file hue.ini. Misalnya:

        sudo vim /etc/hue/conf/hue.ini

      3. Cari istilah iniappblacklist dan ubah baris menjadi seperti berikut:

        appblacklist = search
      4. Simpan perubahan dan mulai ulang Hue seperti yang ditunjukkan dalam contoh berikut:

        sudo stop hue; sudo start hue
  • Tez

    • Masalah ini telah diperbaiki di Amazon EMR 5.22.0.

      Saat Anda terhubung ke UI Tez di http://MasterDNS: 8080/tez-ui melalui koneksi SSH ke simpul utama klaster, kesalahan "Adapter operasi gagal - server Timeline (ATS) berada di luar jangkauan. Entah karena rusak, atau CORS tidak diaktifkan" muncul, atau tugas tiba-tiba menunjukkan N/A.

      Hal ini disebabkan karena UI Tez membuat permintaan untuk YARN Timeline Server menggunakan localhost bukan nama host dari simpul utama. Solusinya, skrip tersedia untuk menjalankan sebagai tindakan bootstrap atau langkah. Skrip memperbarui nama host di file configs.env Tez. Untuk informasi selengkapnya dan lokasi skrip, lihat Petunjuk Bootstrap.

  • Di Amazon EMR versi 5.19.0, 5.20.0, dan 5.21.0, label simpul YARN disimpan dalam direktori HDFS. Dalam beberapa situasi, hal ini menyebabkan penundaan mulai simpul inti dan kemudian menyebabkan klaster mengalami habis waktu dan gagal peluncuran. Dimulai dengan Amazon EMR 5.22.0, masalah ini telah diselesaikan. Label simpul YARN disimpan pada disk lokal dari setiap simpul klaster, menghindari dependensi pada HDFS.

  • Masalah yang diketahui di klaster dengan beberapa simpul utama dan autentikasi Kerberos

    Jika Anda menjalankan klaster dengan beberapa simpul utama dan autentikasi Kerberos di EMR rilis 5.20.0 dan versi setelahnya, Anda mungkin akan mengalami masalah dengan operasi klaster seperti menurunkan skala atau pengiriman langkah, setelah klaster telah berjalan untuk beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai pengguna hadoop bagi simpul utama lead klaster EMR dengan beberapa simpul utama.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.19.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.19.0. Perubahan bersifat relatif terhadap 5.18.0.

Tanggal rilis awal: 7 November 2018

Tanggal diperbarui: 19 November 2018

Upgrade
  • Hadoop versi 2.8.5

  • Flink versi 1.6.1

  • JupyterHub 0.9.4

  • MXNet versi 1.3.0

  • Presto versi 0.212

  • TensorFlow 1.11.0

  • Zookeeper versi 3.4.13

  • AWS SDK for Java1.11.433

Fitur baru
  • (19 November 2018) EMR Notebooks adalah lingkungan terkelola berbasis Notebook Jupyter. Mendukung kernel sihir Spark untuk PySpark, Spark SQL, Spark R, dan Scala. EMR Notebooks dapat digunakan dengan klaster yang dibuat menggunakan Amazon EMR rilis versi 5.18.0 dan versi setelahnya. Untuk informasi selengkapnya, lihat Menggunakan EMR Notebooks di Panduan Pengelolaan Amazon EMR.

  • Committer yang dioptimalkan EMRFS S3 tersedia saat menulis file Parquet menggunakan Spark dan EMRFS. Committer ini meningkatkan performa tulis. Untuk informasi selengkapnya, lihat Gunakan pengurus yang dioptimalkan EMRFS S3.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • YARN

  • Default Amazon Linux AMI para Amazon EMR

    • ruby18, php56, dan gcc48 tidak lagi diinstal secara default. Semua itu dapat diinstal jika diinginkan dengan menggunakan yum.

    • aws-sdk ruby gem tidak lagi diinstal secara default. Itu dapat diinstal menggunakan gem install aws-sdk, jika diinginkan. Komponen khusus juga bisa diinstal. Sebagai contoh, gem install aws-sdk-s3.

Masalah yang diketahui
  • EMR Notebooks—Dalam beberapa situasi, dengan beberapa editor notebook terbuka, editor notebook mungkin sepertinya tidak dapat terhubung ke klaster. Jika hal ini terjadi, hapus cookie peramban dan kemudian buka kembali editor notebook.

  • CloudWatch ContainerPending Penskalaan Metrik dan Otomatis — (Telah diperbaiki di 5.20.0) Amazon EMR dapat memancarkan nilai negatif untukContainerPending. Jika ContainerPending digunakan dalam aturan penskalaan otomatis, maka penskalaan otomatis tidak akan berperilaku seperti yang diharapkan. Hindari penggunaan ContainerPending dengan penskalaan otomatis.

  • Di Amazon EMR versi 5.19.0, 5.20.0, dan 5.21.0, label simpul YARN disimpan dalam direktori HDFS. Dalam beberapa situasi, hal ini menyebabkan penundaan mulai simpul inti dan kemudian menyebabkan klaster mengalami habis waktu dan gagal peluncuran. Dimulai dengan Amazon EMR 5.22.0, masalah ini telah diselesaikan. Label simpul BEARN disimpan pada disk lokal dari setiap node cluster, menghindari dependensi pada HDFS.

Rilis 5.18.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.18.0. Perubahan bersifat relatif terhadap 5.17.0.

Tanggal rilis awal: 24 Oktober 2018

Upgrade
  • Flink versi 1.6.0

  • HBase versi 1.4.7

  • Presto versi 0.210

  • Spark versi 2.3.2

  • Zeppelin versi 0.8.0

Fitur baru
  • Dimulai dengan Amazon EMR 5.18.0, Anda dapat menggunakan repositori artefak Amazon EMR untuk membangun kode tugas Anda terhadap versi perpustakaan dan dependensi yang tepat yang tersedia dengan versi rilis Amazon EMR tertentu. Untuk informasi selengkapnya, lihat Memeriksa dependensi menggunakan repositori artefak Amazon EMR.

Perubahan, penyempurnaan, dan masalah yang diselesaikan

Rilis 5.17.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.17.1. Perubahan bersifat relatif terhadap 5.17.0.

Tanggal rilis awal: 18 Juli 2019

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Memperbarui DefaultaAzon Linux AMI untuk EMR untuk menyertakan pembaruan keamanan kernel Linux penting, termasuk TCP karung Denial of Service Issue (AWS-2019-005).

Rilis 5.17.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.17.0. Perubahan bersifat relatif terhadap 5.16.0.

Tanggal rilis awal: 30 Agustus 2018

Upgrade
  • Flink versi 1.5.2

  • HBase versi 1.4.6

  • Presto versi 0.206

Fitur baru
  • Penambahan support untuk Tensorflow. Untuk informasi selengkapnya, lihat TensorFlow.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
Masalah yang diketahui
  • Ketika Anda membuat klaster kerberized dengan Livy yang diinstal, maka Livy akan gagal dengan pesan kesalahan bahwa autentikasi sederhana tidak diaktifkan. Melakukan reboot server Livy akan menyelesaikan masalah ini. Sebagai solusi, menambahkan langkah selama pembuatan klaster yang menjalankan sudo restart livy-server pada simpul utama.

  • Jika Anda menggunakan Amazon Linux AMI kustom berdasarkan Amazon Linux AMI dengan tanggal pembuatan 2018-08-11, server Oozie gagal untuk memulai. Jika Anda menggunakan Oozie, buatlah AMI kustom berbasis Amazon Linux AMI ID dengan tanggal pembuatan yang berbeda. Anda dapat menggunakanAWS CLI perintah berikut untuk menghasilkan daftar citra ID untuk semua HVM Amazon Linux AMIS dengan versi 2018.03, bersama dengan tanggal rilis, sehingga Anda dapat memilih Amazon Linux AMI yang sesuai sebagai basis Anda. Ganti MyRegion dengan pengenal Wilayah Anda, seperti kami-barat-2.

    aws ec2 --region MyRegion describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1

Rilis 5.16.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.16.0. Perubahan bersifat relatif terhadap 5.15.0.

Tanggal rilis awal: 19 Juli 2018

Upgrade
  • Hadoop versi 2.8.4

  • Flink versi 1.5.0

  • Livy versi 0.5.0

  • MXNet versi 1.2.0

  • Phoenix versi 4.14.0

  • Presto versi 0.203

  • Spark versi 2.3.1

  • AWS SDK for Java1.11.336

  • CUDA 9.2

  • Redshift JDBC Driver 1.2.15.1025

Perubahan, penyempurnaan, dan masalah yang diselesaikan
Masalah yang diketahui
  • Versi rilis ini tidak mendukung tipe instans c1.medium atau m1.small. Klaster yang menggunakan salah satu dari tipe instans tersebut gagal memulai. Sebagai solusi, tentukan tipe instans yang berbeda atau gunakan versi rilis yang berbeda.

  • Ketika Anda membuat klaster kerberized dengan Livy yang diinstal, maka Livy akan gagal dengan pesan kesalahan bahwa autentikasi sederhana tidak diaktifkan. Melakukan reboot server Livy akan menyelesaikan masalah ini. Sebagai solusi, menambahkan langkah selama pembuatan klaster yang menjalankan sudo restart livy-server pada simpul utama.

  • Setelah simpul utama di-reboot atau pengendali instans dimulai ulang, CloudWatch metrik tidak akan dikumpulkan dan fitur penskalaan otomatis tidak akan tersedia di Amazon EMR versi 5.14.0, 5.15.0, atau 5.16.0. Masalah ini telah diperbaiki di Amazon EMR 5.17.0.

Rilis 5.15.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.15.0. Perubahan bersifat relatif terhadap 5.14.0.

Tanggal rilis awal: 21 Juni 2018

Upgrade
  • HBase telah di-upgrade ke 1.4.4

  • Hive telah di-upgrade ke 2.3.3

  • Hue telah di-upgrade ke 4.2.0

  • Oozie telah di-upgrade ke 5.0.0

  • Zookeeper telah di-upgrade ke 3.4.12

  • AWS SDK telah di-upgrade ke 1.11.333

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Hive

  • Hue

    • Pembaruan Hue untuk melakukan autentikasi dengan benar dengan Livy saat Kerberos diaktifkan. Livy sekarang didukung saat menggunakan Kerberos dengan Amazon EMR.

  • JupyterHub

    • Diperbaharui JupyterHub sehingga Amazon EMR menginstal perpustakaan klien LDAP secara default.

    • Perbaikan kesalahan dalam skrip yang menghasilkan sertifikat yang ditandatangani sendiri. Untuk informasi selengkapnya tentang masalah ini, lihat Catatan rilis

Masalah yang diketahui
  • Versi rilis ini tidak mendukung tipe instans c1.medium atau m1.small. Klaster yang menggunakan salah satu dari tipe instans tersebut gagal memulai. Sebagai solusi, tentukan tipe instans yang berbeda atau gunakan versi rilis yang berbeda.

  • Setelah simpul utama di-reboot atau pengendali instans dimulai ulang, CloudWatch metrik tidak akan dikumpulkan dan fitur penskalaan otomatis tidak akan tersedia di Amazon EMR versi 5.14.0, 5.15.0, atau 5.16.0. Masalah ini telah diperbaiki di Amazon EMR 5.17.0.

Rilis 5.14.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.14.1. Perubahan bersifat relatif terhadap 5.14.0.

Tanggal rilis awal: 17 Oktober 2018

Memperbarui AMI default untuk Amazon EMR untuk mengatasi potensi kerentanan keamanan.

Rilis 5.14.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.14.0. Perubahan bersifat relatif terhadap 5.13.0.

Tanggal rilis awal: 4 Juni 2018

Upgrade
  • Apache Flink telah di-upgrade ke 1.4.2

  • Apache MXNet telah di-upgrade ke 1.1.0

  • Apache Sqoop telah di-upgrade ke 1.4.7

Fitur baru
  • Ditambahkan JupyterHub dukungan. Untuk informasi selengkapnya, lihat JupyterHub.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • EMRFS

    • String userAgent dalam permintaan untuk Amazon S3 telah diperbarui sehingga berisi informasi pengguna dan kelompok prinsipal utama pemohon. Ini bisa digunakan dengan log AWS CloudTrail untuk pelacakan permintaan yang lebih komprehensif.

  • HBase

    • HBASE-20447 telah disertakan, yang mengatasi masalah yang dapat menyebabkan masalah cache, terutama dengan Wilayah terpisah.

  • MXnet

    • Penambahan perpustakaan OpenCV.

  • Spark

    • Ketika Spark menulisfile Parquet ke lokasi Amazon S3 menggunakan EMRFS, FileOutputCommitter algoritme telah diperbarui sehingga menggunakan versi 2 bukan versi 1. Hal ini mengurangi jumlah penggantian nama, yang akan meningkatkan performa aplikasi. Perubahan ini tidak mempengaruhi:

      • Aplikasi selain Spark.

      • Aplikasi yang menulis ke sistem file lain, seperti HDFS (yang masih menggunakan versi 1 dari FileOutputCommitter).

      • Aplikasi yang menggunakan format output lain, seperti teks atau csv, yang sudah menggunakan tulis langsung EMRFS.

Masalah diketahui
  • JupyterHub

    • Menggunakan klasifikasi konfigurasi untuk mengatur JupyterHub dan notebook Jupyter individu ketika Anda membuat sebuah klaster tidak didukung. Edit file jupyterhub_config.py dan file jupyter_notebook_config.py untuk setiap pengguna secara manual. Untuk informasi selengkapnya, lihat Mengkonfigurasi JupyterHub.

    • JupyterHub gagal untuk memulai pada cluster dalam subnet pribadi, gagal dengan pesanError: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt' . Hal ini disebabkan oleh kesalahan dalam skrip yang menghasilkan sertifikat ditandatangani sendiri. Gunakan solusi berikut untuk menghasilkan sertifikat yang ditandatangani sendiri. Semua perintah dijalankan saat terhubung ke simpul utama.

      1. Salin skrip pembuatan sertifikat dari kontainer ke simpul utama:

        sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
      2. Gunakan editor teks untuk mengubah baris 23 untuk mengubah hostname publik menjadi hostname lokal seperti yang ditunjukkan di bawah ini:

        local hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local-hostname)
      3. Jalankan skrip untuk menghasilkan sertifikat ditandatangani sendiri:

        sudo bash ./gen_self_signed_cert.sh
      4. Pindahkan file sertifikat yang menghasilkan skrip untuk direktori /etc/jupyter/conf/:

        sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/

      Anda dapattailjupyter.log file untuk memverifikasi bahwa JupyterHub restart dan mengembalikan kode respon 200. Misalnya:

      tail -f /var/log/jupyter/jupyter.log

      Ini akan menghasilkan respons yang serupa dengan yang berikut ini:

      # [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
  • Setelah simpul utama di-reboot atau pengendali instans dimulai ulang, CloudWatch metrik tidak akan dikumpulkan dan fitur penskalaan otomatis tidak akan tersedia di Amazon EMR versi 5.14.0, 5.15.0, atau 5.16.0. Masalah ini telah diperbaiki di Amazon EMR 5.17.0.

Rilis 5.13.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.13.0. Perubahan bersifat relatif terhadap 5.12.0.

Upgrade
  • Spark telah di-upgrade ke 2.3.0

  • HBase telah di-upgrade ke 1.4.2

  • Presto telah di-upgrade ke 0.194

  • Telah di-upgradeAWS SDK for Java ke 1.11.297

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Hive

    • HIVE-15436 telah di-backport. Peningkatan Hive API untuk hanya menghasilkan tampilan.

Masalah yang diketahui
  • MXNet saat ini tidak memiliki pustaka OpenCV.

Rilis 5.12.2

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.12.2. Perubahan bersifat relatif terhadap 5.12.1.

Tanggal rilis awal: 29 Agustus 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Rilis ini membahas potensi kerentanan keamanan.

Rilis 5.12.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.12.1. Perubahan bersifat relatif terhadap 5.12.0.

Tanggal rilis awal: 29 Maret 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Memperbarui kernel Amazon Linux dari DefaultMaZon Linux AMI untuk Amazon EMR untuk mengatasi potensi kerentanan.

Rilis 5.12.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.12.0. Perubahan bersifat relatif terhadap 5.11.1.

Upgrade
Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Hadoop

    • Properti yarn.resourcemanager.decommissioning.timeout telah berubah menjadi yarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs. Anda dapat menggunakan properti ini untuk menyesuaikan menurunkan skala klaster. Untuk informasi selengkapnya, lihat Menurunkan Skala Klaster di Panduan Pengelolaan Amazon EMR.

    • Hadoop CLI menambahkan opsi -d pada perintah (salin) cp, yang menentukan salinan langsung. Anda dapat menggunakan ini untuk menghindari membuat file .COPYING perantara, yang membuat penyalinan data antara Amazon S3 lebih cepat. Untuk informasi selengkapnya, lihat HADOOP-12384.

  • Babi

    • Penambahan klasifikasi konfigurasi pig-env, yang menyederhanakan konfigurasi properti lingkungan Pig. Untuk informasi selengkapnya, lihat Konfigurasikan aplikasi.

  • Presto

    • Penambahan konfigurasi klasifikasi presto-connector-redshift, yang dapat Anda gunakan untuk mengkonfigurasi nilai-nilai dalam file konfigurasi redshift.properties Presto. Untuk informasi selengkapnya, lihat Konektor Redshift dalam dokumentasi Presto, dan Konfigurasikan aplikasi.

    • Support presto untuk EMRFS telah ditambahkan dan menjadi konfigurasi default. Amazon EMR versi rilis sebelumnya menggunakan PrestOS3FileSystem, yang merupakan satu-satunya pilihan. Untuk informasi selengkapnya, lihat FileSystem Konfigurasi EMRFS dan Prestos3.

      catatan

      Jika Anda query data yang mendasari di Amazon S3 dengan Amazon EMR versi 5.12.0, kesalahan Presto dapat terjadi. Hal ini karena Presto gagal untuk mengambil nilai klasifikasi konfigurasi dari emrfs-site.xml. Sebagai solusi, buatemrfs subdirektori di bawahusr/lib/presto/plugin/hive-hadoop2/ dan buat symlinkusr/lib/presto/plugin/hive-hadoop2/emrfs ke/usr/share/aws/emr/emrfs/conf/emrfs-site.xml file yang ada. Kemudian restart proses presto-server (sudo presto-server stopdiikuti olehsudo presto-server start).

  • Spark

Masalah diketahui
  • MXNet tidak menyertakan perpustakaan OpenCV.

  • SparkR ini tidak tersedia untuk cluster yang dibuat menggunakan AMI kustom karena R tidak diinstal secara default pada node cluster.

Rilis 5.11.3

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.11.3. Perubahan bersifat relatif terhadap 5.11.2.

Tanggal rilis awal: 18 Juli 2019

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Memperbarui DefaultaAzon Linux AMI untuk EMR untuk menyertakan pembaruan keamanan kernel Linux penting, termasuk TCP karung Denial of Service Issue (AWS-2019-005).

Rilis 5.11.2

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.11.2. Perubahan bersifat relatif terhadap 5.11.1.

Tanggal rilis awal: 29 Agustus 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Rilis ini membahas potensi kerentanan keamanan.

Rilis 5.11.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.11.1. Perubahan relatif terhadap rilis Amazon EMR 5.11.0.

Tanggal rilis awal: 22 Januari 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan

Masalah yang diketahui

  • MXNet tidak menyertakan perpustakaan OpenCV.

  • Hive 2.3.2 mengatur hive.compute.query.using.stats=true secara default. Hal ini menyebabkan kueri mengambil data statistik yang ada bukan secara langsung dari data, yang dapat membingungkan. Sebagai contoh, jika Anda memiliki tabel dengan hive.compute.query.using.stats=true dan mengunggah file baru ke LOCATION tabel, menjalankan kueri SELECT COUNT(*) pada tabel akan menghasilkan hitungan dari statistik, bukan mengambil dari baris yang ditambahkan.

    Sebagai solusinya, gunakan perintah ANALYZE TABLE untuk mengumpulkan statistik baru, atau atur hive.compute.query.using.stats=false. Untuk informasi lebih lanjut, lihat Statistik dalam Hive dalam dokumentasi Apache Hive.

Rilis 5.11.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.11.0. Perubahan relatif terhadap rilis Amazon EMR 5.10.0.

Upgrade

Aplikasi dan komponen berikut telah ditingkatkan dalam rilis ini untuk menyertakan versi berikut.

  • Hive 2.3.2

  • Spark versi 2.2.1

  • SDK for Java versi 1.11.238

Fitur baru

  • Spark

    • Ditambahkan spark.decommissioning.timeout.threshold pengaturan, yang meningkatkan perilaku dekomisioning Spark saat menggunakan contoh Spot. Untuk informasi selengkapnya, lihat Mengkonfigurasi perilaku dekomisioning node.

    • Penambahanaws-sagemaker-spark-sdk komponen ke Spark, yang menginstal Amazon SageMaker Spark dan dependensi terkait untuk integrasi Spark dengan Amazon SageMaker. Anda dapat menggunakan Amazon SageMaker Spark untuk membuat alur machine learning (ML) Spark menggunakan SageMaker tahapan Amazon. Untuk informasi selengkapnya, lihat SageMaker Spark readme on GitHub dan Using Apache Spark with Amazon SageMaker di Amazon SageMaker Developer Guide.

Masalah diketahui

  • MXNet tidak menyertakan perpustakaan OpenCV.

  • Hive 2.3.2 mengatur hive.compute.query.using.stats=true secara default. Hal ini menyebabkan kueri mengambil data statistik yang ada bukan secara langsung dari data, yang dapat membingungkan. Sebagai contoh, jika Anda memiliki tabel dengan hive.compute.query.using.stats=true dan mengunggah file baru ke LOCATION tabel, menjalankan kueri SELECT COUNT(*) pada tabel akan menghasilkan hitungan dari statistik, bukan mengambil dari baris yang ditambahkan.

    Sebagai solusinya, gunakan perintah ANALYZE TABLE untuk mengumpulkan statistik baru, atau atur hive.compute.query.using.stats=false. Untuk informasi lebih lanjut, lihat Statistik dalam Hive dalam dokumentasi Apache Hive.

Rilis 5.10.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.10.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.9.0.

Upgrade

Aplikasi dan komponen berikut telah ditingkatkan dalam rilis ini untuk menyertakan versi berikut.

  • AWS SDK for Java1.11.221

  • Hive versi 2.3.1

  • Presto versi 0.187

Fitur baru

Perubahan, penyempurnaan, dan masalah yang diselesaikan

  • Presto

  • Spark

    • SPARK-20640 yang telah di-backport, yang membuat waktu habis rpc dan coba lagi untuk nilai registrasi kocok yang dapat dikonfigurasi menggunakan properti spark.shuffle.registration.timeout dan spark.shuffle.registration.maxAttempts.

    • SPARK-21549 yang telah di-backport, yang mengkoreksi kesalahan yang terjadi saat menulis kustom OutputFormat ke lokasi non-HDFS.

  • Hadoop-13270 yang telah di-backport.

  • Perpustakaan Numpy, Scipy, dan Matplotlib telah dihapus dari base Amazon EMR AMI. Jika perpustakaan tersebut diperlukan untuk aplikasi Anda, mereka tersedia di repositori aplikasi, sehingga Anda dapat menggunakan tindakan bootstrap untuk menginstalnya pada semua simpul menggunakan yum install.

  • Amazon EMR base AMI tidak lagi memiliki paket RPM aplikasi yang disertakan, sehingga paket RPM tidak lagi ada pada simpul klaster. AMI kustom dan Amazon EMR base AMI sekarang me-referensi repositori paket RPM di Amazon S3.

  • Karena perkenalan penagihan per-detik di Amazon EC2, Perilaku menurunkan skala default sekarang Dihentikan saat tugas selesai bukan Dihentikan pada jam instans. Untuk informasi lebih lanjut, lihat Konfigurasikan gugus skala bawah.

Masalah yang diketahui

  • MXNet tidak menyertakan perpustakaan OpenCV.

  • Hive 2.3.1 mengatur hive.compute.query.using.stats=true secara default. Hal ini menyebabkan kueri mengambil data statistik yang ada bukan secara langsung dari data, yang dapat membingungkan. Sebagai contoh, jika Anda memiliki tabel dengan hive.compute.query.using.stats=true dan mengunggah file baru ke LOCATION tabel, menjalankan kueri SELECT COUNT(*) pada tabel akan menghasilkan hitungan dari statistik, bukan mengambil dari baris yang ditambahkan.

    Sebagai solusinya, gunakan perintah ANALYZE TABLE untuk mengumpulkan statistik baru, atau atur hive.compute.query.using.stats=false. Untuk informasi lebih lanjut, lihat Statistik dalam Hive dalam dokumentasi Apache Hive.

Rilis 5.9.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.9.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.8.0.

Tanggal rilis: 5 Oktober 2017

Pembaruan fitur terbaru: 12 Oktober 2017

Upgrade

Aplikasi dan komponen berikut telah ditingkatkan dalam rilis ini untuk menyertakan versi berikut.

  • AWS SDK for Java Versi 1.11.183

  • Flink versi 1.3.2

  • Hue versi 4.0.1

  • Pig versi 0.17.0

  • Presto versi 0.184

Fitur baru

  • Penambahan support Livy (versi 0.4.0-incubating). Untuk informasi selengkapnya, lihat Apache Livy.

  • Penambahan support untuk Hue Notebook untuk Spark.

  • Penambahan support untuk instans Amazon EC2 i3-series (12 Oktober, 2017).

Perubahan, penyempurnaan, dan masalah yang diselesaikan

  • Spark

    • Penambahan serangkaian fitur baru yang membantu memastikan Spark menangani penghentian simpul karena pengubahan ukuran manual atau permintaan kebijakan penskalaan otomatis dengan lebih baik. Untuk informasi selengkapnya, lihat Mengkonfigurasi perilaku dekomisioning node.

    • SSL digunakan sebagai ganti 3DES untuk enkripsi in-transit untuk layanan transfer blok, yang meningkatkan kinerja saat menggunakan tipe instans Amazon EC2 dengan AES-NI.

    • SPARK-21494 yang telah di-backport.

  • Zeppelin

  • HBase

    • Penambahan patch HBASE-18533, yang memungkinkan nilai tambahan untuk BucketCache konfigurasi HBase menggunakan klasifikasihbase-site konfigurasi.

  • Hue

    • Penambahan support Katalog Glue Data AWS untuk editor kueri Hive di Hue.

    • Secara default, pengguna super di Hue dapat mengakses semua file yang diizinkan untuk diakses oleh peran Amazon EMR IAM. Pengguna yang baru dibuat tidak secara otomatis memiliki izin untuk mengakses browser file Amazon S3 dan harus mengaktifkan izin filebrowser.s3_access untuk grup mereka.

  • Masalah yang menyebabkan data JSON mendasar yang dibuat menggunakan Katalog Data Glue AWS tidak dapat diakses telah diselesaikan.

Masalah yang diketahui

  • Peluncuran klaster gagal saat semua aplikasi diinstal dan ukuran volume akar Amazon EBS default tidak diubah. Sebagai solusinya, gunakan perintah aws emr create-cluster dari AWS CLI dan tentukan parameter --ebs-root-volume-size yang lebih besar.

  • Hive 2.3.0 mengatur hive.compute.query.using.stats=true secara default. Hal ini menyebabkan kueri mengambil data statistik yang ada bukan secara langsung dari data, yang dapat membingungkan. Sebagai contoh, jika Anda memiliki tabel dengan hive.compute.query.using.stats=true dan mengunggah file baru ke LOCATION tabel, menjalankan kueri SELECT COUNT(*) pada tabel akan menghasilkan hitungan dari statistik, bukan mengambil dari baris yang ditambahkan.

    Sebagai solusinya, gunakan perintah ANALYZE TABLE untuk mengumpulkan statistik baru, atau atur hive.compute.query.using.stats=false. Untuk informasi lebih lanjut, lihat Statistik dalam Hive dalam dokumentasi Apache Hive.

Rilis 5.8.2

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.8.2. Perubahan relatif dilakukan terhadap 5.8.1.

Tanggal rilis awal: 29 Maret 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Memperbarui kernel Amazon Linux dari DefaultMaZon Linux AMI untuk Amazon EMR untuk mengatasi potensi kerentanan.

Rilis 5.8.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.8.1. Perubahan relatif terhadap rilis Amazon EMR 5.8.0.

Tanggal rilis awal: 22 Januari 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan

Rilis 5.8.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.8.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.7.0.

Tanggal rilis awal: 10 Agustus 2017

Pembaruan fitur terbaru: 25 September 2017

Upgrade

Aplikasi dan komponen berikut telah ditingkatkan dalam rilis ini untuk menyertakan versi berikut:

  • AWS SDK 1.11.160

  • Flink versi 1.3.1

  • Hive versi 2.3.0. Untuk informasi lebih lanjut, lihat Catatan rilis di situs Apache Hive.

  • Spark versi 2.2.0. Untuk informasi lebih lanjut, lihat Catatan rilis di situs Apache Spark.

Fitur baru

  • Penambahan support untuk melihat riwayat aplikasi (25 September 2017). Untuk informasi lebih lanjut, lihat Melihat riwayat aplikasi di Amazon EMR.

Perubahan, penyempurnaan, dan masalah yang diselesaikan

  • Integrasi dengan Katalog DataAWS Glue

  • Penambahan Riwayat aplikasi ke detail klaster, yang memungkinkan Anda melihat data riwayat untuk aplikasi YARN dan detail tambahan untuk aplikasi Spark. Untuk informasi lebih lanjut, lihat Lihat riwayat aplikasi di Amazon EMR.

  • Oozie

  • Hue

  • HBase

    • Penambahan patch untuk mengekspos waktu mulai server master HBase melalui Java Management Extensions (JMX) menggunakan getMasterInitializedTime.

    • Penambahan patch yang meningkatkan waktu mulai klaster.

Masalah yang diketahui

  • Peluncuran klaster gagal saat semua aplikasi diinstal dan ukuran volume akar Amazon EBS default tidak diubah. Sebagai solusinya, gunakan perintah aws emr create-cluster dari AWS CLI dan tentukan parameter --ebs-root-volume-size yang lebih besar.

  • Hive 2.3.0 mengatur hive.compute.query.using.stats=true secara default. Hal ini menyebabkan kueri mengambil data statistik yang ada bukan secara langsung dari data, yang dapat membingungkan. Sebagai contoh, jika Anda memiliki tabel dengan hive.compute.query.using.stats=true dan mengunggah file baru ke LOCATION tabel, menjalankan kueri SELECT COUNT(*) pada tabel akan menghasilkan hitungan dari statistik, bukan mengambil dari baris yang ditambahkan.

    Sebagai solusinya, gunakan perintah ANALYZE TABLE untuk mengumpulkan statistik baru, atau atur hive.compute.query.using.stats=false. Untuk informasi selengkapnya, lihat Statistik di Hive di dokumentasi Apache Hive.

  • Spark—Saat menggunakan Spark, ada masalah kebocoran file handler dengan daemon apppusher, yang dapat muncul untuk tugas Spark yang berjalan lama setelah beberapa jam atau hari. Untuk memperbaiki masalah ini, hubungkan ke simpul utama dan tipe sudo /etc/init.d/apppusher stop. Ini akan menghentikan daemon apppusher, yang akan dimulai ulang secara otomatis oleh Amazon EMR.

  • Riwayat aplikasi

    • Data historis untuk eksekutor Spark yang mati tidak tersedia.

    • Riwayat aplikasi ini tidak tersedia untuk cluster yang menggunakan konfigurasi keamanan untuk mengaktifkan enkripsi dalam penerbangan.

Rilis 5.7.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.7.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.6.0.

Tanggal rilis: 13 Juli 2017

Upgrade

  • Flink versi 1.3.0

  • Phoenix versi 4.11.0

  • Zeppelin versi 0.7.2

Fitur baru

  • Ditambahkan kemampuan untuk menentukan kustom Amazon Linux AMI saat Anda membuat sebuah cluster. Untuk informasi lebih lanjut, lihat Menggunakan AMI khusus.

Perubahan, penyempurnaan, dan masalah yang diselesaikan

  • HBase

  • Presto - penambahan kemampuan untuk mengonfigurasi node.properties.

  • YARN - penambahan kemampuan untuk mengonfigurasi container-log4j.properties

  • Sqoop - backport SQOOP-2880, yang memperkenalkan argumen yang memungkinkan Anda untuk mengatur direktori sementara Sqoop.

Rilis 5.6.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.6.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.5.0.

Tanggal rilis: 5 Juni 2017

Upgrade

  • Flink versi 1.2.1

  • HBase versi 1.3.1

  • Mahout versi 0.13.0. Ini adalah versi Mahout pertama yang men-support Spark 2.x di Amazon EMR versi 5.0 dan versi setelahnya.

  • Spark versi 2.1.1

Perubahan, penyempurnaan, dan masalah yang diselesaikan

  • Presto

    • Penambahan kemampuan untuk mengaktifkan komunikasi aman SSL/TLS antara simpul Presto dengan mengaktifkan enkripsi in-transit menggunakan konfigurasi keamanan. Untuk informasi lebih lanjut, lihat Enkripsi data dalam perjalanan.

    • Backport Presto 7661, yang menambahkan VERBOSE opsi untuk EXPLAIN ANALYZE pernyataan untuk melaporkan lebih rinci, statistik tingkat rendah tentang rencana query.

Rilis 5.5.3

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.5.3. Perubahan relatif dilakukan terhadap 5.5.2.

Tanggal rilis awal: 29 Agustus 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Rilis ini membahas potensi kerentanan keamanan.

Rilis 5.5.2

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.5.2. Perubahan relatif dilakukan terhadap 5.5.1.

Tanggal rilis awal: 29 Maret 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Memperbarui kernel Amazon Linux dari DefaultMaZon Linux AMI untuk Amazon EMR untuk mengatasi potensi kerentanan.

Rilis 5.5.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.5.1. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.5.0.

Tanggal rilis awal: 22 Januari 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan

Rilis 5.5.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.5.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.4.0.

Tanggal rilis: 26 April 2017

Upgrade

  • Hue versi 3.12

  • Presto versi 0.170

  • Zeppelin versi 0.7.1

  • ZooKeeper 3.4.10

Perubahan, penyempurnaan, dan masalah yang diselesaikan

  • Spark

  • Flink

    • Flink sekarang dibangun dengan Scala 2.11. Jika Anda menggunakan API dan perpustakaan Scala, kami menyarankan Anda menggunakan Scala 2.11 dalam proyek Anda.

    • Mengatasi masalah di mana default HADOOP_CONF_DIR dan YARN_CONF_DIR tidak diatur dengan benar, sehingga start-scala-shell.sh gagal bekerja. Juga penambahan kemampuan untuk mengatur nilai ini menggunakan env.hadoop.conf.dir dan env.yarn.conf.dir di /etc/flink/conf/flink-conf.yaml atau klasifikasi konfigurgasi flink-conf.

    • Perintah spesifik EMR baru diperkenalkan, flink-scala-shell sebagai wrapper untuk start-scala-shell.sh. Kami menyarankan untuk menggunakan perintah ini, bukan start-scala-shell. Perintah baru menyederhanakan eksekusi. Sebagai contoh, flink-scala-shell -n 2 memulai shell Flink Scala dengan tugas paralelisme 2.

    • Perintah spesifik EMR baru diperkenalkan, flink-yarn-session sebagai wrapper untuk yarn-session.sh. Kami menyarankan untuk menggunakan perintah ini, bukan yarn-session. Perintah baru menyederhanakan eksekusi. Misalnya, flink-yarn-session -d -n 2 memulai sesi Flink yang berjalan lama dalam keadaan terlepas dengan dua pengelola tugas.

    • Ditangani (FLINK-6125) commons httpclient tidak berbayang lagi di Flink 1.2.

  • Presto

    • Penambahan support untuk autentikasi LDAP. Menggunakan LDAP dengan Presto on Amazon EMR mengharuskan Anda mengaktifkan akses HTTPS untuk koordinator Presto (http-server.https.enabled=true dalam config.properties). Untuk detail konfigurasi, lihat Autentikasi LDAP dalam dokumentasi Presto.

    • Penambahan support untuk SHOW GRANTS.

  • Amazon EMR Base AMI Linux

    • Rilis Amazon EMR sekarang berbasis Amazon Linux 2017.03. Untuk informasi lebih lanjut, lihat Catatan rilis Amazon Linux AMI 2017.03.

    • Menghapus Python 2.6 dari citra Amazon EMR base Linux. Python 2.7 dan 3.4 diinstal secara default. Anda dapat menginstal Python 2.6 secara manual jika diperlukan.

Rilis 5.4.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.4.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.3.0.

Tanggal rilis: 8 Maret 2017

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Meningkatkan ke Flink 1.2.0

  • Meningkatkan ke Hbase 1.3.0

  • Phoenix di-upgrade ke 4.9.0

    catatan

    Jika Anda melakukan upgrade dari Amazon EMR versi sebelumnya ke Amazon EMR versi 5.4.0 atau yang lebih baru dan menggunakan pengindeksan sekunder, lakukan upgrade indeks lokal seperti yang dijelaskan dalam dokumentasi Apache Phoenix. Amazon EMR menghapus konfigurasi yang diperlukan dari klasifikasi hbase-site, tetapi indeks perlu diisi ulang. Upgrade indeks online dan offline didukung. Default-nya adalah upgrade online, yang berarti indeks diisi ulang saat menginisialisasi dari klien Phoenix versi 4.8.0 atau lebih tinggi. Untuk menentukan upgrade offline, atur konfigurasi phoenix.client.localIndexUpgrade ke SALAH dalam klasifikasi phoenix-site, lalu lakukan SSH ke simpul utama untuk menjalankan psql [zookeeper] -1.

  • Presto di-upgrade ke 0.166

  • Zeppelin di-upgrade ke 0.7.0

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk rilis label emr-5.4.0:

Rilis 5.3.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.3.1. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.3.0.

Tanggal rilis: 7 Februari 2017

Perubahan kecil untuk backport Zeppelin patch dan memperbarui AMI default untuk Amazon EMR.

Rilis 5.3.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.3.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.2.1.

Tanggal rilis: 26 Januari 2017

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Meningkatkan ke Hive 2.1.1

  • Hue di-upgrade ke 3.11.0

  • Spark di-upgrade ke 2.1.0

  • Oozie di-upgrade ke 4.3.0

  • Flink di-upgrade ke 1.1.4

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk rilis label emr-5.3.0:

  • Menambahkan patch ke Hue yang mengizinkan Anda menggunakan pengaturan interpreters_shown_on_wheel untuk mengonfigurasi apa yang akan ditampilkan interpreter pertama kali di roda pilihan Notebook, terlepas dari urutannya dalam file hue.ini.

  • Menambahkan hive-parquet-logging klasifikasi konfigurasi, yang dapat Anda gunakan untuk mengkonfigurasi nilai-nilai di Hive parquet-logging.properties file.

Rilis 5.2.2

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.2.2. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.2.1.

Tanggal rilis: 2 Mei 2017

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Backport PERCIKAN-194459, yang membahas masalah saat membaca dari tabel ORC dengan kolom char/varchar dapat gagal.

Rilis 5.2.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.2.1. Perubahan relatif dilakukan terhadap Amazon EMR rilis 5.2.0.

Tanggal rilis: 29 Desember 2016

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Upgrade ke Presto 0.157.1. Untuk informasi lebih lanjut, lihat Catatan rilis presto dalam dokumentasi Presto.

  • Zookeeper di-upgrade 3.4.9. Untuk informasi selengkapnya, lihat CatatanZooKeeper rilis dalam ZooKeeper dokumentasi Apache.

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk rilis label emr-5.2.1:

  • Ditambahkan dukungan untuk Amazon EC2 m4.16xlarge contoh jenis di Amazon EMR versi 4.8.3 dan kemudian, tidak termasuk 5.0.0, 5.0.3, dan 5.2.0.

  • Rilis Amazon EMR sekarang berbasis Amazon Linux 2016.09. Untuk informasi selengkapnya, lihat http://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

  • Lokasi dari jalur konfigurasi Flink dan YARN sekarang diatur secara default di /etc/default/flink bahwa Anda tidak perlu mengatur variabel lingkungan FLINK_CONF_DIR dan HADOOP_CONF_DIR ketika menjalankan flink atau yarn-session.sh skrip pemandu untuk melancarkan pekerjaan Flink.

  • menambahkan dukungan untuk FlinkKinesisConsumer kelas.

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Memperbaiki masalah di Hadoop mana ReplicationMonitor benang bisa terjebak untuk waktu yang lama karena perlombaan antara replikasi dan penghapusan file yang sama dalam sebuah cluster besar.

  • Memperbaiki masalah di mana ControlledJob #toString gagal dengan pengecualian penunjuk null (NPE) saat status pekerjaan tidak berhasil diperbarui.

Rilis 5.2.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.2.0. Perubahan relatif dilakukan terhadap Amazon EMR rilis 5.1.0.

Tanggal rilis: 21 November 2016

Perubahan dan penyempurnaan

Perubahan dan penyempurnaan berikut tersedia dalam rilis ini:

  • Menambahkan mode penyimpanan Amazon S3 untuk HBase.

  • Memungkinkan Anda menentukan lokasi Amazon S3 untuk rootdir HBase. Untuk informasi lebih lanjut, lihat HBase di Amazon S3.

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Meningkatkan ke Spark 2.0.2

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Memperbaiki masalah dengan /mnt dibatasi ke 2 TB pada jenis instans EBS saja.

  • Memperbaiki masalah dengan instance-controller dan log logpusher menjadi output ke berkas.out sesuai mereka bukan untuk log4j dikonfigurasi file.log normal mereka, yang memutar per jam. File.out tidak berputar, jadi ini akhirnya akan mengisi partisi /emr. Masalah ini hanya mempengaruhi jenis instans mesin virtual perangkat keras (HVM).

Rilis 5.1.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.1.0. Perubahan relatif terhadap rilis Amazon EMR 5.0.0.

Tanggal rilis: 03 November 2016

Perubahan dan penyempurnaan

Perubahan dan penyempurnaan berikut tersedia dalam rilis ini:

  • Menambahkan dukungan untuk 1.1.3.

  • Presto telah ditambahkan sebagai opsi di bagian notebook Hue.

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Upgrade ke HBase 1.2.3

  • Upgrade ke Zeppelin 0.6.2

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Memperbaiki masalah dengan kueri Tez di Amazon S3 dengan file ORC tidak berfungsi serta versi Amazon EMR 4.x sebelumnya.

Rilis 5.0.3

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.0.3. Perubahan relatif dilakukan terhadap Amazon EMR rilis 5.0.0.

Tanggal rilis: 24 Oktober 2016

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Upgrade ke Hadoop 2.7.3

  • Presto di-upgrade ke 0.152.3, yang mencakup support untuk antarmuka web Presto. Anda dapat mengakses antarmuka web Presto pada koordinator Presto dengan menggunakan port 8889. Untuk informasi lebih lanjut tentang antarmuka web Presto, lihat Antarmuka web dalam dokumentasi Presto.

  • Spark di-upgrade ke 2.0.1

  • Rilis Amazon EMR sekarang berbasis Amazon Linux 2016.09. Untuk informasi selengkapnya, lihat http://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Rilis 5.0.0

Tanggal rilis: 27 Juli 2016

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Meningkatkan ke Hive 2.1

  • Presto di-upgrade ke 0.150

  • Spark di-upgrade ke 2.0

  • Hue di-upgrade ke 3.10.0

  • Pig di-upgrade ke 0.16.0

  • Tez di-upgrade ke 0.8.4

  • Zeppelin di-upgrade ke 0.6.1

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk label rilis emr-5.0.0 atau lebih besar:

  • Amazon EMR mendukung versi open-source terbaru dari Hive (versi 2.1) dan Pig (versi 0.16.0). Jika Anda pernah menggunakan Hive atau Pig di Amazon EMR di masa lalu, ini dapat memengaruhi beberapa kasus penggunaan. Untuk informasi lebih lanjut, lihat Hive dan Pig.

  • Mesin eksekusi default untuk Hive dan Pig sekarang adalah Tez. Untuk mengubah ini, Anda akan mengedit nilai yang sesuai dalam klasifikasi konfigurasi hive-site dan pig-properties, masing-masing.

  • Fitur langkah debug yang disempurnakan telah ditambahkan, yang mengizinkan Anda untuk melihat akar masalah gagal langkah jika layanan dapat menentukan penyebabnya. Untuk informasi lebih lanjut, lihat Peningkatan debugging langkah dalam Panduan Manajemen Amazon EMR.

  • Aplikasi yang sebelumnya diakhiri dengan "-Sandbox" tidak lagi menggunakan akhiran itu. Ini akan merusak otomatisasi Anda, misalnya, jika Anda menggunakan skrip untuk melakukan peluncuran klaster dengan aplikasi ini. Tabel berikut menunjukkan nama-nama aplikasi di Amazon EMR 4.7.2 vs Amazon EMR 5.0.0.

    Perubahan nama aplikasi
    Amazon EMR 4.7.2 Amazon EMR 5.0.0
    Oozie-Sandbox Oozie
    Presto-Sandbox Presto
    Sqoop-Sandbox Sqoop
    Zeppelin-Sandbox Zeppelin
    ZooKeeper-Kotak pasir ZooKeeper
  • Spark sekarang dikompilasi untuk Scala 2.11.

  • Java 8 sekarang menjadi default JVM. Semua aplikasi berjalan menggunakan runtime Java 8. Tidak ada perubahan untuk setiap aplikasi byte kode target. Sebagian besar aplikasi terus menargetkan Java 7.

  • Zeppelin sekarang menyertakan fitur autentikasi. Untuk informasi selengkapnya, lihat Zeppelin.

  • Menambahkan support untuk konfigurasi keamanan, yang mengizinkan Anda membuat dan menerapkan opsi enkripsi dengan lebih mudah. Untuk informasi selengkapnya tentang enkripsi saat istirahat, lihat.

Rilis 4.9.5

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 4.9.5. Perubahan relatif dilakukan terhadap 4.9.4.

Tanggal rilis awal: 29 Agustus 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • HBase

    • Rilis ini membahas potensi kerentanan keamanan.

Rilis 4.9.4

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 4.9.4. Perubahan relatif dilakukan terhadap 4.9.3.

Tanggal rilis awal: 29 Maret 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Memperbarui kernel Amazon Linux dari DefaultMaZon Linux AMI untuk Amazon EMR untuk mengatasi potensi kerentanan.

Rilis 4.9.3

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.9.3. Perubahan relatif dilakukan terhadap rilis Amazon EMR 4.9.2.

Tanggal rilis awal: 22 Januari 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan

Rilis 4.9.2

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.9.2. Perubahan relatif dilakukan terhadap rilis Amazon EMR 4.9.1.

Tanggal rilis: 13 Juli 2017

Perubahan kecil, perbaikan bug, dan berbagai peningkatan dibuat dalam rilis ini.

Rilis 4.9.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.9.1. Perubahan relatif dilakukan terhadap rilis Amazon EMR 4.8.4.

Tanggal rilis: 10 April 2017

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Backport dari HIVE-9976 dan HIVE-10106

  • Memperbaiki masalah di YARN di mana sejumlah besar node (lebih dari 2.000) dan kontainer (lebih besar dari 5.000) akan menyebabkan kesalahan kehabisan memori, misalnya: "Exception in thread 'main' java.lang.OutOfMemoryError".

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk label rilis emr-4.9.1:

Rilis 4.8.4

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.8.4. Perubahan relatif dilakukan terhadap rilis Amazon EMR 4.8.3.

Tanggal rilis: 7 Februari 2017

Perubahan kecil, perbaikan bug, dan penyempurnaan dibuat dalam rilis ini.

Rilis 4.8.3

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.8.3. Perubahan relatif dilakukan terhadap rilis Amazon EMR 4.8.2.

Tanggal rilis: 29 Desember 2016

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Upgrade ke Presto 0.157.1. Untuk informasi lebih lanjut, lihat Catatan rilis presto dalam dokumentasi Presto.

  • Spark di-upgrade ke 1.6.3. Untuk informasi lebih lanjut, lihat Catatan rilis Spark dalam dokumentasi Apache Spark.

  • Di-upgrade ke ZooKeeper 3.4.9. Untuk informasi selengkapnya, lihat CatatanZooKeeper rilis dalam ZooKeeper dokumentasi Apache.

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk label rilis emr-4.8.3:

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Memperbaiki masalah di Hadoop mana ReplicationMonitor benang bisa terjebak untuk waktu yang lama karena perlombaan antara replikasi dan penghapusan file yang sama dalam sebuah cluster besar.

  • Memperbaiki masalah di mana ControlledJob #toString gagal dengan pengecualian penunjuk null (NPE) saat status pekerjaan tidak berhasil diperbarui.

Rilis 4.8.2

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.8.2. Perubahan relatif dilakukan terhadap rilis Amazon EMR 4.8.0.

Tanggal rilis: 24 Oktober 2016

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Upgrade ke Hadoop 2.7.3

  • Presto di-upgrade ke 0.152.3, yang mencakup support untuk antarmuka web Presto. Anda dapat mengakses antarmuka web Presto pada koordinator Presto dengan menggunakan port 8889. Untuk informasi lebih lanjut tentang antarmuka web Presto, lihat Antarmuka web dalam dokumentasi Presto.

  • Rilis Amazon EMR sekarang berbasis Amazon Linux 2016.09. Untuk informasi selengkapnya, lihat http://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Rilis 4.8.0

Tanggal rilis: 7 September 2016

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Meningkatkan ke HBase 1.2.2

  • Presto-Sandbox di-upgrade ke 0.151

  • Tez di-upgrade ke 0.8.4

  • Zeppelin-Sandbox di-upgrade ke 0.6.1

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk rilis label emr-4.8.0:

  • Memperbaiki masalah di YARN mana ApplicationMaster akan mencoba untuk membersihkan wadah yang tidak lagi ada karena contoh mereka telah dihentikan.

  • Memperbaiki URL hive-server2 untuk tindakan Hive2 dalam instans Oozie.

  • Menambahkan support untuk katalog Presto tambahan.

  • Patch backported: SARANG-8948, SARANG-12679, SARANG-13405, PHOENIX-3116, HADOOP-12689

  • Menambahkan support untuk konfigurasi keamanan, yang mengizinkan Anda membuat dan menerapkan opsi enkripsi dengan lebih mudah. Untuk informasi selengkapnya tentang enkripsi saat istirahat, lihat.

Rilis 4.7.2

Catatan rilis berikut mencakup informasi untuk Amazon EMR 4.7.2.

Tanggal rilis: 15 Juli 2016

Fitur

Fitur berikut tersedia dalam rilis ini:

  • Upgrade ke Mahout 0.12.2

  • Presto di-upgrade ke 0.148

  • Spark di-upgrade ke 1.6.2

  • Anda sekarang dapat membuat AWSCredentialsProvider untuk digunakan dengan EMRFS menggunakan URI sebagai parameter. Untuk informasi selengkapnya, lihat Membuat AWSCredentialsProvider untuk EMRFS.

  • EMRFS sekarang memungkinkan pengguna untuk mengonfigurasi titik akhir DynamoDB kustom untuk metadata Tampilan Konsisten mereka menggunakan properti fs.s3.consistent.dynamodb.endpoint di emrfs-site.xml.

  • Menambahkan skrip di /usr/bin yang disebut spark-example, yang membungkus /usr/lib/spark/spark/bin/run-example sehingga Anda dapat menjalankan contoh secara langsung. Misalnya, untuk menjalankan SparkPi contoh yang datang dengan distribusi Spark, Anda dapat menjalankanspark-example SparkPi 100 dari baris perintah atau menggunakancommand-runner.jar sebagai langkah dalam API.

Masalah yang diketahui yang dipecahkan dari rilis sebelumnya

  • Memperbaiki masalah di mana Oozie tidak menempatkan spark-assembly.jar di lokasi yang benar saat Spark juga diinstal, yang mengakibatkan terjadinya gagal peluncuran aplikasi Spark dengan Oozie.

  • Memperbaiki masalah dengan pengelogan berbasis Spark Log4J di wadah BEARN.

Rilis 4.7.1

Tanggal rilis: 10 Juni 2016

Masalah yang diketahui yang dipecahkan dari rilis sebelumnya

  • Memperbaiki masalah yang memperpanjang waktu startup klaster yang diluncurkan di VPC dengan subnet privat. Bug tersebut hanya memengaruhi klaster yang diluncurkan dengan rilis Amazon EMR 4.7.0.

  • Memperbaiki masalah yang tidak ditangani dengan benar daftar file di Amazon EMR untuk cluster yang diluncurkan dengan rilis Amazon EMR 4.7.0.

Rilis 4.7.0

penting

Amazon EMR 4.7.0 sudah usang. Gunakan Amazon EMR 4.7.1 atau versi setelahnya sebagai gantinya.

Tanggal rilis: 2 Juni 2016

Fitur

Fitur berikut tersedia dalam rilis ini:

  • Menambahkan Apache Phoenix 4.7.0

  • Menambahkan Apache Tez 0.8.3

  • Meng-upgrade HBase ke versi 1.2.1

  • Meng-upgraded Mahout ke versi 0.12.0

  • meng-upgrade Presto ke versi 0.147

  • Meng-upgrade AWS SDK for Java ke versi 1.10.75

  • Flag terakhir telah dihapus dari properti mapreduce.cluster.local.dir di mapred-site.xml untuk memungkinkan pengguna menjalankan Pig dalam mode lokal.

driver Amazon Redshift JDBC tersedia di cluster

Driver Amazon Redshift JDBC sekarang disertakan di /usr/share/aws/redshift/jdbc. /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar adalah driver Amazon Redshift yang kompatibel dengan JDBC 4.1 dan /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar driver Amazon Redshift yang kompatibel dengan JDBC 4.0. Untuk informasi selengkapnya, lihat Mengkonfigurasi koneksi JDBC di Amazon Redshift Panduan manajemen.

Java 8

Kecuali untuk Presto, OpenJDK 1.7 adalah JDK default yang digunakan untuk semua aplikasi. Namun, OpenJDK 1.7 dan 1.8 semuanya diinstal. Untuk informasi tentang cara mengatur JAVA_HOME untuk aplikasi, lihat Mengkonfigurasi aplikasi untuk menggunakan Java 8.

Masalah yang diketahui yang dipecahkan dari rilis sebelumnya

  • Memperbaiki masalah kernel yang secara signifikan memengaruhi performa pada volume EBS Throughput Optimized HDD (st1) untuk Amazon EMR di emr-4.6.0.

  • Memperbaiki masalah di mana klaster akan gagal jika ada zona enkripsi HDFS yang ditentukan tanpa memilih Hadoop sebagai aplikasi.

  • Mengubah kebijakan tulis HDFS default dari RoundRobin menjadi AvailableSpaceVolumeChoosingPolicy. Beberapa volume tidak digunakan dengan benar dengan RoundRobin konfigurasi, yang mengakibatkan simpul inti gagal dan HDFS tidak dapat diandalkan.

  • Memperbaiki masalah dengan EMRFS CLI, yang akan menyebabkan pengecualian saat membuat tabel metadata DynamoDB default untuk tampilan yang konsisten.

  • Memperbaiki masalah kebuntuan di EMRFS yang berpotensi terjadi selama operasi penggantian nama dan penyalinan multi-bagian.

  • Memperbaiki masalah dengan EMRFS yang menyebabkan CopyPart ukuran default menjadi 5 MB. Default-nya sekarang diatur pada 128 MB.

  • Memperbaiki masalah dengan konfigurasi pemula Zeppelin yang berpotensi mencegah Anda menghentikan layanan.

  • Memperbaiki masalah dengan Spark dan Zeppelin, yang mencegah Anda menggunakan skema URI s3a:// karena /usr/lib/hadoop/hadoop-aws.jar tidak dimuat dengan benar di classpath masing-masing.

  • Melakukan backport HUE-2484.

  • Melakukan backport commit dari Hue 3.9.0 (tidak ada JIRA) untuk memperbaiki masalah dengan sampel peramban HBase.

  • Melakukan backport HIVE-9073.

Rilis 4.6.0

Tanggal rilis: 21 April 2016

Fitur

Fitur berikut tersedia dalam rilis ini:

Masalah yang memengaruhi jenis volume HDD (st1) EBS Throughput Optimized

Masalah pada kernel Linux versi 4.2 dan di atasnya secara signifikan memengaruhi performa pada volume Throughput Optimized HDD (st1) EBS untuk EMR. Rilis ini (emr-4.6.0) menggunakan kernel versi 4.4.5 dan karenanya terpengaruh. Oleh karena itu, kami menyarankan untuk tidak menggunakan emr-4.6.0 jika Anda ingin menggunakan volume st1 EBS. Anda dapat menggunakan emr-4.5.0 atau rilis Amazon EMR sebelumnya dengan st1 tanpa dampak. Selain itu, kami menyediakan perbaikan dengan rilis yang akan datang.

Standar Python

Python 3.4 sekarang diinstal secara default, tetapi Python 2.7 tetap menjadi default sistem. Anda dapat mengonfigurasi Python 3.4 sebagai default sistem dengan menggunakan tindakan bootstrap; anda dapat menggunakan API konfigurasi untuk mengatur ekspor PYSPARK_PYTHON ke/usr/bin/python3.4spark-env klasifikasi untuk memengaruhi versi Python yang digunakan oleh PySpark.

Java 8

Kecuali untuk Presto, OpenJDK 1.7 adalah JDK default yang digunakan untuk semua aplikasi. Namun, OpenJDK 1.7 dan 1.8 semuanya diinstal. Untuk informasi tentang cara mengatur JAVA_HOME untuk aplikasi, lihat Mengkonfigurasi aplikasi untuk menggunakan Java 8.

Masalah yang diketahui yang dipecahkan dari rilis sebelumnya

  • Memperbaiki masalah ketika penyediaan aplikasi terkadang gagal secara acak karena kata sandi yang dibuat.

  • Sebelumnya, mysqld diinstal pada semua simpul. Sekarang, itu hanya diinstal pada instans utama dan hanya jika aplikasi yang dipilih menyertakan mysql-server sebagai komponen. Saat ini, aplikasi berikut termasukmysql-server komponen: HCatalog, Hue, Hue, Presto-Sandbox, dan Sqoop-Sandbox.

  • Mengubah yarn.scheduler.maximum-allocation-vcores ke 80 dari default 32, yang memperbaiki masalah yang diperkenalkan di emr-4.4.0 yang terutama terjadi dengan Spark saat menggunakan opsi maximizeResourceAllocation di klaster yang tipe instans intinya adalah salah satu dari beberapa tipe instans besar yang mengatur YARN vcores lebih dari 32; yaitu c4.8xlarge, cc2.8xlarge, hs1.8xlarge, i2.8xlarge, m2.4xlarge, r3.8xlarge, d2.8xlarge, atau m4.10xlarge terpengaruh oleh masalah ini.

  • s3-dist-cp sekarang menggunakan EMRFS untuk semua nominasi Amazon S3 dan tidak lagi bertahap ke direktori HDFS sementara.

  • Memperbaiki masalah dengan penanganan pengecualian untuk unggahan multi-part enkripsi di sisi klien.

  • Menambahkan opsi untuk mengizinkan pengguna mengubah kelas penyimpanan Amazon S3. Secara default pengaturan ini adalah STANDARD. Pengaturan klasifikasi konfigurasi emrfs-site adalah fs.s3.storageClass dan nilai yang mungkin adalah STANDARD, STANDARD_IA, dan REDUCED_REDUNDANCY. Untuk informasi selengkapnya tentang kelas penyimpanan, lihat Kelas Penyimpanan dalam Panduan Pengguna Amazon Simple Storage Service.

Rilis 4.5.0

Tanggal rilis: 4 April 2016

Fitur

Fitur berikut tersedia dalam rilis ini:

  • Meningkatkan ke Spark 1.6.1

  • Meng-upgrade Hadoop ke versi 2.7.2

  • Meng-upgrade Presto ke versi 0.140

  • Menambahkan support AWS KMS untuk enkripsi di sisi server Amazon S3.

Masalah yang diketahui yang dipecahkan dari rilis sebelumnya

  • Memperbaiki masalah ketika server MySQL dan Apache tidak dapat dimulai setelah simpul di-boot ulang.

  • Memperbaiki masalah di mana IMPORT tidak berfungsi dengan benar dengan tabel yang tidak dipartisi yang disimpan di Amazon S3

  • Diperbaiki masalah dengan Presto di mana ia memerlukan direktori pementasan menjadi /mnt/tmp ketimbang /tmp saat menulis ke tabel Hive.

Rilis 4.4.0

Tanggal rilis: 14 Maret 2016

Fitur

Fitur berikut tersedia dalam rilis ini:

  • HCatalog 1.0.0 ditambahkan

  • Menambahkan Sqoop-Sandbox versi 1.4.6

  • Meng-upgrade Presto ke versi 0.136

  • Meng-upgrade Zeppelin ke versi 0.5.6

  • Meng-upgraded Mahout ke versi 0.11.1

  • Mengaktifkan dynamicResourceAllocation secara default.

  • Menambahkan tabel semua klasifikasi konfigurasi untuk rilis. Untuk informasi selengkapnya, lihat Daftar Tabel klasifikasi konfigurasi dalam Mengkonfigurasi aplikasi.

Masalah yang diketahui yang dipecahkan dari rilis sebelumnya

  • Memperbaiki masalah di manamaximizeResourceAllocation pengaturan tidak akan menyediakan cukup memori untuk ApplicationMaster daemon YARN.

  • Memperbaiki masalah yang dihadapi dengan DNS kustom. Jika ada entri di resolve.conf sebelum entri kustom yang disediakan, maka entri kustom tidak akan dapat diselesaikan. Perilaku ini dipengaruhi oleh kluster di VPC tempat server nama VPC default dimasukkan sebagai entri teratas di resolve.conf.

  • Memperbaiki masalah saat Python default dipindahkan ke versi 2.7 dan boto tidak diinstal untuk versi tersebut.

  • Memperbaiki masalah ketika kontainer YARN dan aplikasi Spark akan menghasilkan file basis data round robin (rrd) Ganglia yang unik, yang mengakibatkan disk pertama yang terpasang pada instans terisi. Karena perbaikan ini, metrik tingkat kontainer YARN telah dinonaktifkan dan metrik tingkat aplikasi Spark telah dinonaktifkan.

  • Memperbaiki masalah di log pusher di mana ia akan menghapus semua folder log kosong. Efeknya adalah Hive CLI tidak dapat melakukan log karena log pusher menghapus folder user kosong di bawah /var/log/hive.

  • Memperbaiki masalah yang memengaruhi impor Hive, yang memengaruhi partisi dan mengakibatkan kesalahan selama melakukan impor.

  • Memperbaiki masalah di mana EMRFS dan s3-dist-cp tidak menangani nama bucket yang berisi titik dengan benar.

  • Mengubah perilaku di EMRFS sehingga dalam bucket yang mengaktifkan-versioning, file penanda _$folder$ tidak terus-menerus dibuat, yang dapat berkontribusi pada peningkatan performa untuk bucket yang mengaktifkan-versioning.

  • Mengubah perilaku di EMRFS sehingga tidak menggunakan file instruksi kecuali untuk kasus di mana enkripsi di sisi klien diaktifkan. Jika Anda ingin menghapus file instruksi saat menggunakan enkripsi di sisi klien, Anda dapat mengatur properti emrfs-site.xml, fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled, menjadi BETUL.

  • Mengubah agregasi log BEARN untuk mempertahankan log di tujuan agregasi selama dua hari. Tujuan default adalah penyimpanan HDFS cluster Anda. Jika Anda ingin mengubah durasi ini, ubah nilai yarn.log-aggregation.retain-seconds menggunakan yarn-site klasifikasi konfigurasi saat Anda membuat klaster. Seperti biasa, Anda dapat menyimpan log aplikasi ke Amazon S3 dengan menggunakan parameter log-uri saat Anda membuat klaster.

Patch diterapkan

Patch berikut dari proyek sumber terbuka disertakan dalam rilis ini:

Rilis 4.3.0

Tanggal rilis: 19 Januari 2016

Fitur

Fitur berikut tersedia dalam rilis ini:

  • Upgrade ke Hadoop 2.7.1

  • Meng-upgrade Spark ke versi 1.6.0

  • Meng-upgrade Ganglia ke versi 3.7.2

  • Meng-upgrade Presto ke versi 0.130

Amazon EMR membuat beberapa perubahan pada spark.dynamicAllocation.enabled saat diatur ke BETUL; secara default SALAH. Jika diatur ke BETUL, hal ini akan memengaruhi default yang diatur oleh pengaturan maximizeResourceAllocation:

  • Jika spark.dynamicAllocation.enabled diatur ke BETUL, spark.executor.instances tidak diatur oleh maximizeResourceAllocation.

  • Pengaturan spark.driver.memory sekarang dikonfigurasi berdasarkan tipe instans di klaster dengan cara yang mirip dengan cara pengaturan spark.executors.memory. Namun, karena aplikasi driver Spark dapat berjalan pada instans utama atau salah satu instans inti (misalnya, dalam mode klien YARN dan klaster), pengaturan spark.driver.memory diatur berdasarkan tipe instans dari tipe instans yang lebih kecil di antara dua grup instans tersebut.

  • Pengaturan spark.default.parallelism sekarang diatur menjadi dua kali jumlah inti CPU yang tersedia untuk kontainer YARN. Dalam rilis sebelumnya, ini adalah setengah nilai itu.

  • Perhitungan untuk overhead memori disediakan untuk proses Spark BEARN disesuaikan menjadi lebih akurat, menghasilkan peningkatan kecil dalam jumlah total memori yang tersedia untuk Spark (yaitu, spark.executor.memory).

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Agregasi log BEARN sekarang diaktifkan secara default.

  • Memperbaiki masalah di mana log tidak akan didorong ke kluster bucket log Amazon S3 saat agregasi log YARN diaktifkan.

  • Ukuran kontainer BEARN sekarang memiliki minimum baru 32 di semua jenis simpul.

  • Memperbaiki masalah Ganglia yang menyebabkan I/O disk berlebihan pada simpul utama dalam klaster besar.

  • Memperbaiki masalah yang mencegah log aplikasi didorong ke Amazon S3 saat klaster dimatikan.

  • Memperbaiki masalah di EMRFS CLI yang menyebabkan perintah tertentu gagal.

  • Memperbaiki masalah Zeppelin yang mencegah dependensi dimuat di dasar SparkContext.

  • Memperbaiki masalah yang diakibatkan oleh pengubahan ukuran yang mencoba menambahkan instans.

  • Memperbaiki masalah di Hive di mana CREATE TABLE AS SELECT membuat panggilan daftar yang berlebihan ke Amazon S3.

  • Memperbaiki masalah ketika klaster besar tidak tersedia dengan benar saat Hue, Oozie, dan Ganglia diinstal.

  • Memperbaiki masalah di s3-dist-cp di mana ia akan mengembalikan kode keluar nol meskipun gagal dengan kesalahan.

Patch diterapkan

Patch berikut dari proyek sumber terbuka disertakan dalam rilis ini:

Rilis 4.2.0

Tanggal rilis: 18 November 2015

Fitur

Fitur berikut tersedia dalam rilis ini:

  • Menambahkan dukungan Ganglia

  • Meng-upgrade Spark ke versi 1.5.2

  • Meng-upgrade Presto ke versi 0.125

  • Meng-upgrade Oozie ke versi 4.2.0

  • Meng-upgrade Zeppelin ke versi 0.5.5

  • Mengupgrade AWS SDK for Java ke 1.10.27

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Memperbaiki masalah dengan CLI EMRFS yang tidak menggunakan nama tabel metadata default.

  • Memperbaiki masalah yang ditemui saat menggunakan tabel yang didukung ORC di Amazon S3.

  • Memperbaiki masalah yang dihadapi dengan ketidakcocokan versi Python dalam konfigurasi Spark.

  • Memperbaiki masalah ketika status node YARN gagal untuk melaporkan karena masalah DNS untuk cluster di VPC.

  • Memperbaiki masalah yang dihadapi saat YARN menonaktifkan node, mengakibatkan aplikasi yang digantung atau ketidakmampuan untuk menjadwalkan aplikasi baru.

  • Memperbaiki masalah yang dihadapi saat kluster diakhiri dengan status TIMED_OUT_MULAI.

  • Memperbaiki masalah yang ditemui saat menyertakan dependensi Scala EMRFS di build lain yang dibangun. Ketergantungan Scala telah dihapus.