Arsip Amazon EMR dari catatan rilis - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Arsip Amazon EMR dari catatan rilis

Catatan rilis untuk semua rilis EMR Amazon tersedia di bawah ini. Untuk informasi rilis yang komprehensif untuk setiap rilis, lihatAmazon EMR versi rilis 6.x, Amazon EMR versi rilis 5.x danVersi rilis Amazon EMR 4.x.

Untuk mendapatkan pembaruan saat rilis EMR Amazon baru tersedia, berlangganan umpan RSS untuk catatan rilis Amazon EMR.

Rilis 6.14.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 6.14.0. Perubahan relatif terhadap 6.13.0. Untuk informasi tentang timeline rilis, lihat. 6.14.0 perubahan log

Fitur baru
  • Amazon EMR 6.14.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-2, Flink 1.17.1, Iceberg 1.3.1, and Trino 422.

  • Penskalaan terkelola Amazon EMR sekarang tersedia di Wilayah ap-southeast-3 Asia Pasifik (Jakarta) untuk klaster yang Anda buat dengan Amazon EMR 6.14.0 dan lebih tinggi.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Rilis 6.14.0 mengoptimalkan manajemen log dengan Amazon EMR yang berjalan di Amazon EC2. Akibatnya, Anda mungkin melihat sedikit pengurangan biaya penyimpanan untuk log cluster Anda.

  • Rilis 6.14.0 meningkatkan alur kerja penskalaan untuk memperhitungkan instans inti berbeda yang memiliki variasi ukuran substansif untuk volume Amazon EBS mereka. Peningkatan ini hanya berlaku untuk node inti; operasi scale-down untuk node tugas tidak terpengaruh.

  • Rilis 6.14.0 meningkatkan cara Amazon EMR berinteraksi dengan aplikasi sumber terbuka seperti. Apache Hadoop YARN ResourceManager and HDFS NameNode Peningkatan ini mengurangi risiko keterlambatan operasional dengan penskalaan cluster, dan mengurangi kegagalan startup yang terjadi karena masalah konektivitas dengan aplikasi open-source.

  • Rilis 6.14.0 mengoptimalkan instalasi aplikasi pada peluncuran cluster. Ini meningkatkan waktu startup cluster untuk kombinasi tertentu dari aplikasi Amazon EMR.

  • Rilis 6.14.0 memperbaiki masalah di mana operasi penskalaan klaster mungkin terhenti saat cluster yang berjalan di VPC dengan domain khusus menghadapi inti atau node tugas dimulai ulang.

  • Saat Anda meluncurkan cluster dengan rilis patch terbaru Amazon EMR 5.36 atau lebih tinggi, atau 6.6 atau lebih tinggi, Amazon EMR menggunakan rilis Amazon Linux 2 terbaru untuk Amazon EMR AMI default. Untuk informasi selengkapnya, lihat Menggunakan AMI Amazon Linux default untuk Amazon EMR.

    OsReleaseLabel (Versi Amazon Linux) Versi kernel Amazon Linux Tanggal yang tersedia Wilayah yang Didukung
    2.0.20231206.0 4.14.330 Desember 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231116.0 4.14.328 Desember 11, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231101.0 4.14.327 17 November 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20230906.0 4.14.322 11 September 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)

Rilis 6.13.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 6.13.0. Perubahan relatif terhadap 6.12.0. Untuk informasi tentang timeline rilis, lihat. 6.13.0 perubahan log

Fitur baru
  • Amazon EMR 6.13.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-1, CUDA Toolkit 11.8.0, and JupyterHub 1.5.0.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Rilis 6.13.0 meningkatkan daemon manajemen log EMR Amazon untuk memastikan bahwa semua log diunggah dengan irama reguler ke Amazon S3 saat perintah penghentian klaster dikeluarkan. Ini memfasilitasi penghentian cluster yang lebih cepat.

  • Rilis 6.13.0 meningkatkan kemampuan manajemen log EMR Amazon untuk memastikan pengunggahan semua file log yang konsisten dan tepat waktu ke Amazon S3. Ini terutama menguntungkan kluster EMR yang berjalan lama.

  • Saat Anda meluncurkan cluster dengan rilis patch terbaru Amazon EMR 5.36 atau lebih tinggi, atau 6.6 atau lebih tinggi, Amazon EMR menggunakan rilis Amazon Linux 2 terbaru untuk Amazon EMR AMI default. Untuk informasi selengkapnya, lihat Menggunakan AMI Amazon Linux default untuk Amazon EMR.

    OsReleaseLabel (Versi Amazon Linux) Versi kernel Amazon Linux Tanggal yang tersedia Wilayah yang Didukung
    2.0.20231206.0 4.14.330 Desember 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231116.0 4.14.328 Desember 11, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231101.0 4.14.327 16 November 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231020.1 4.14.326 7 November 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231012.1 4.14.326 26 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20230926.0 4.14.322 19 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20230906.0 4.14.322 4 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230808.0 4.14.320 24 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)

Rilis 6.12.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 6.12.0. Perubahan relatif terhadap 6.11.0. Untuk informasi tentang timeline rilis, lihat. 6.12.0 perubahan log

Fitur baru
  • Amazon EMR 6.12.0 supports Apache Spark 3.4.0, Apache Spark RAPIDS 23.06.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.1-amzn-0, Apache Iceberg 1.3.0-amzn-0, Trino 414, and PrestoDB 0.281.

  • Amazon EMR merilis 6.12.0 dan lebih tinggi mendukung integrasi LDAP dengan Apache Livy, Apache Hive hingga HiveServer 2 (HS2), Trino, Presto, dan Hue. Anda juga dapat menginstal Apache Spark dan Apache Hadoop pada cluster EMR yang menggunakan 6.12.0 atau lebih tinggi dan mengkonfigurasinya untuk menggunakan LDAP. Untuk informasi selengkapnya, lihat Menggunakan Active Directory atau server LDAP untuk autentikasi dengan Amazon EMR.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Amazon EMR merilis 6.12.0 dan yang lebih tinggi memberikan dukungan runtime Java 11 untuk Flink. Untuk informasi selengkapnya, lihat Konfigurasikan Flink untuk dijalankan dengan Java 11.

  • Rilis 6.12.0 menambahkan mekanisme coba lagi baru ke alur kerja penskalaan cluster untuk kluster EMR yang menjalankan Presto atau Trino. Peningkatan ini mengurangi risiko bahwa pengubahan ukuran cluster akan terhenti tanpa batas karena satu operasi pengubahan ukuran yang gagal. Ini juga meningkatkan pemanfaatan cluster, karena kluster Anda naik dan turun lebih cepat.

  • Rilis 6.12.0 memperbaiki masalah di mana operasi penskalaan klaster mungkin terhenti ketika node inti yang mengalami penonaktifan yang anggun berubah tidak sehat karena alasan apa pun sebelum sepenuhnya dinonaktifkan.

  • Rilis 6.12.0 meningkatkan logika scale-down cluster sehingga cluster Anda tidak mencoba menurunkan skala node inti di bawah pengaturan faktor replikasi HDFS untuk cluster. Ini sejalan dengan persyaratan redundansi data Anda, dan mengurangi kemungkinan operasi penskalaan mungkin terhenti.

  • Rilis 6.12.0 meningkatkan kinerja dan efisiensi layanan pemantauan kesehatan untuk Amazon EMR dengan meningkatkan kecepatan pencatatan perubahan status untuk instans. Peningkatan ini mengurangi kemungkinan penurunan kinerja untuk node cluster yang menjalankan beberapa alat klien khusus atau aplikasi pihak ketiga.

  • Rilis 6.12.0 meningkatkan kinerja daemon manajemen log on-cluster untuk Amazon EMR. Akibatnya, ada sedikit peluang untuk kinerja yang menurun dengan kluster EMR yang menjalankan langkah-langkah dengan konkurensi tinggi.

  • Dengan Amazon EMR rilis 6.12.0, daemon manajemen log telah ditingkatkan untuk mengidentifikasi semua log yang digunakan secara aktif dengan pegangan file terbuka pada penyimpanan instans lokal, dan proses terkait. Peningkatan ini memastikan bahwa Amazon EMR menghapus file dengan benar dan merebut kembali ruang penyimpanan setelah log diarsipkan ke Amazon S3.

  • Rilis 6.12.0 mencakup peningkatan daemon manajemen log yang menghapus direktori langkah kosong dan tidak terpakai di sistem file cluster lokal. Sejumlah besar direktori kosong dapat menurunkan kinerja daemon EMR Amazon dan mengakibatkan pemanfaatan disk yang berlebihan.

  • Rilis 6.12.0 memungkinkan rotasi log untuk log YARN Timeline Server. Ini meminimalkan skenario pemanfaatan disk yang berlebihan, terutama untuk cluster yang berjalan lama.

  • Ukuran volume root default telah meningkat menjadi 15 GB di Amazon EMR 6.10.0 dan lebih tinggi. Rilis sebelumnya memiliki ukuran volume root default 10 GB.

  • Saat Anda meluncurkan cluster dengan rilis patch terbaru Amazon EMR 5.36 atau lebih tinggi, atau 6.6 atau lebih tinggi, Amazon EMR menggunakan rilis Amazon Linux 2 terbaru untuk Amazon EMR AMI default. Untuk informasi selengkapnya, lihat Menggunakan AMI Amazon Linux default untuk Amazon EMR.

    OsReleaseLabel (Versi Amazon Linux) Versi kernel Amazon Linux Tanggal yang tersedia Wilayah yang Didukung
    2.0.20231206.0 4.14.330 Desember 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231116.0 4.14.328 Desember 11, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231101.0 4.14.327 16 November 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231020.1 4.14.326 7 November 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231012.1 4.14.326 26 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20230926.0 4.14.322 19 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20230906.0 4.14.322 4 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230822.0 4.14.322 Agustus 30, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230808.0 4.14.320 24 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230727.0 4.14.320 Agustus 14, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230719.0 4.14.320 2 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230628.0 4.14.318 Juli 12, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah)

Rilis 6.11.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 6.11.1. Perubahan relatif terhadap 6.11.0. Untuk informasi tentang timeline rilis, lihat. 6.11.1 perubahan log

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Karena pertikaian kunci, sebuah node dapat masuk ke dalam kebuntuan jika ditambahkan atau dihapus pada saat yang sama ketika ia mencoba untuk menonaktifkan. Akibatnya, Hadoop Resource Manager (YARN) menjadi tidak responsif, dan memengaruhi semua kontainer yang masuk dan saat ini berjalan.

  • Rilis ini mencakup perubahan yang memungkinkan kluster ketersediaan tinggi pulih dari status gagal setelah restart.

  • Rilis ini mencakup perbaikan keamanan untuk Hue dan HBase.

  • Rilis ini memperbaiki masalah di mana cluster yang menjalankan beban kerja di Spark dengan Amazon EMR mungkin diam-diam menerima hasil yang salah dengan,,, dan. contains startsWith endsWith like Masalah ini terjadi saat Anda menggunakan ekspresi pada bidang yang dipartisi yang memiliki metadata di Amazon EMR Hive3 Metastore Server (HMS).

  • Rilis ini memperbaiki masalah dengan pelambatan di sisi Glue ketika tidak ada fungsi yang ditentukan pengguna (UDF).

  • Rilis ini memperbaiki masalah yang menghapus log kontainer oleh layanan agregasi log node sebelum pendorong log dapat mendorongnya ke S3 jika terjadi penonaktifan YARN.

  • Rilis ini memperbaiki masalah dengan metrik FairShare Scheduler saat Node Label diaktifkan untuk Hadoop.

  • Rilis ini memperbaiki masalah yang memengaruhi kinerja Spark saat Anda menetapkan true nilai default untuk konfigurasi. spark.yarn.heterogeneousExecutors.enabled spark-defaults.conf

  • Rilis ini memperbaiki masalah dengan Mengurangi Tugas yang gagal membaca data acak. Masalah ini menyebabkan kegagalan kueri Hive dengan kesalahan memori yang rusak.

  • Rilis ini menambahkan mekanisme coba lagi baru ke alur kerja penskalaan klaster untuk kluster EMR yang menjalankan Presto atau Trino. Peningkatan ini mengurangi risiko bahwa pengubahan ukuran cluster akan terhenti tanpa batas karena satu operasi pengubahan ukuran yang gagal. Ini juga meningkatkan pemanfaatan cluster, karena kluster Anda naik dan turun lebih cepat.

  • Rilis ini meningkatkan logika penskalaan klaster sehingga klaster Anda tidak mencoba menurunkan skala node inti di bawah pengaturan faktor replikasi HDFS untuk cluster. Ini sejalan dengan persyaratan redundansi data Anda, dan mengurangi kemungkinan operasi penskalaan mungkin terhenti.

  • Daemon manajemen log telah ditingkatkan untuk mengidentifikasi semua log yang digunakan secara aktif dengan pegangan file terbuka pada penyimpanan instance lokal, dan proses terkait. Peningkatan ini memastikan bahwa Amazon EMR menghapus file dengan benar dan merebut kembali ruang penyimpanan setelah log diarsipkan ke Amazon S3.

  • Rilis ini mencakup peningkatan daemon manajemen log yang menghapus direktori langkah kosong dan tidak terpakai di sistem file cluster lokal. Sejumlah besar direktori kosong dapat menurunkan kinerja daemon EMR Amazon dan mengakibatkan pemanfaatan disk yang berlebihan.

  • Saat Anda meluncurkan cluster dengan rilis patch terbaru Amazon EMR 5.36 atau lebih tinggi, atau 6.6 atau lebih tinggi, Amazon EMR menggunakan rilis Amazon Linux 2 terbaru untuk Amazon EMR AMI default. Untuk informasi selengkapnya, lihat Menggunakan AMI Amazon Linux default untuk Amazon EMR.

    OsReleaseLabel (Versi Amazon Linux) Versi Kernel Amazon Linux Tanggal Tersedia Wilayah yang Didukung
    2.0.20231206.0 4.14.330 Desember 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231116.0 4.14.328 Desember 11, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231101.0 4.14.327 16 November 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231020.1 4.14.326 7 November 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20231012.1 4.14.326 26 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20230926.0 4.14.322 19 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv), AWS GovCloud (AS-Barat), AWS GovCloud (AS-Timur), Tiongkok (Beijing), Tiongkok (Ningxia)
    2.0.20230906.0 4.14.322 4 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230822.0 4.14.322 Agustus 30, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230808.0 4.14.320 24 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230727.0 4.14.320 Agustus 14, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah)

Rilis 6.11.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 6.11.0. Perubahan relatif terhadap 6.10.0. Untuk informasi tentang timeline rilis, lihat log perubahan.

Fitur baru
  • Amazon EMR 6.11.0 mendukung Apache Spark 3.3.2-amzn-0, Apache Spark RAPIDS 23.02.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.0-amzn-0, Apache Iceberg 1.2.0-amzn-0, Trino 410-amzn-0, dan PrestoDB 0.279-amzn-0.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Dengan Amazon EMR 6.11.0, konektor DynamoDB telah ditingkatkan ke versi 5.0.0. Versi 5.0.0 menggunakan. AWS SDK for Java 2.x Rilis sebelumnya menggunakan AWS SDK for Java 1.x. Sebagai hasil dari peningkatan ini, kami sangat menyarankan Anda untuk menguji kode Anda sebelum Anda menggunakan konektor DynamoDB dengan Amazon EMR 6.11.

  • Ketika konektor DynamoDB untuk Amazon EMR 6.11.0 memanggil layanan DynamoDB, ia menggunakan nilai Wilayah yang Anda berikan untuk properti. dynamodb.endpoint Kami menyarankan Anda juga mengonfigurasi dynamodb.region saat Anda menggunakandynamodb.endpoint, dan kedua properti menargetkan hal yang samaWilayah AWS. Jika Anda menggunakan dynamodb.endpoint dan tidak mengonfigurasidynamodb.region, konektor DynamoDB untuk Amazon EMR 6.11.0 akan menampilkan pengecualian Wilayah yang tidak valid dan mencoba merekonsiliasi informasi Anda Wilayah AWS dari layanan metadata instans Amazon EC2 (IMDS). Jika konektor tidak dapat mengambil Region dari IMDS, itu default ke US East (N. Virginia) (). us-east-1 Kesalahan berikut adalah contoh pengecualian Wilayah tidak valid yang mungkin Anda dapatkan jika Anda tidak mengonfigurasi dynamodb.region properti dengan benar: error software.amazon.awssdk.services.dynamodb.model.DynamoDbException: Credential should be scoped to a valid region. Untuk informasi selengkapnya tentang kelas yang terpengaruh oleh AWS SDK for Java pemutakhiran ke 2.x, lihat Komit Upgrade AWS SDK for Java dari 1.x ke 2.x (#175) di GitHub repo untuk konektor Amazon EMR - DynamoDB.

  • Rilis ini memperbaiki masalah di mana data kolom menjadi NULL ketika Anda menggunakan Delta Lake untuk menyimpan data tabel Delta di Amazon S3 setelah operasi penggantian nama kolom. Untuk informasi lebih lanjut tentang fitur eksperimental ini di Danau Delta, lihat Operasi ganti nama kolom di Panduan Pengguna Danau Delta.

  • Rilis 6.11.0 memperbaiki masalah yang mungkin terjadi saat Anda membuat simpul tepi dengan mereplikasi salah satu node utama dari cluster dengan beberapa node primer. Node tepi yang direplikasi dapat menyebabkan penundaan dengan operasi penskalaan, atau mengakibatkan pemanfaatan memori yang tinggi pada node utama. Untuk informasi selengkapnya tentang cara membuat simpul tepi untuk berkomunikasi dengan cluster EMR Anda, lihat Edge Node Creator di aws-samples repo. GitHub

  • Rilis 6.11.0 meningkatkan proses otomatisasi yang digunakan Amazon EMR untuk memasang kembali volume Amazon EBS ke instance setelah reboot.

  • Rilis 6.11.0 memperbaiki masalah yang mengakibatkan celah intermiten dalam metrik Hadoop yang diterbitkan Amazon EMR ke Amazon. CloudWatch

  • Rilis 6.11.0 memperbaiki masalah dengan kluster EMR di mana pembaruan ke file konfigurasi YARN yang berisi daftar pengecualian node untuk cluster terganggu karena pemanfaatan disk yang berlebihan. Pembaruan yang tidak lengkap menghalangi operasi penskalaan klaster masa depan. Rilis ini memastikan bahwa klaster Anda tetap sehat, dan operasi penskalaan berfungsi seperti yang diharapkan.

  • Ukuran volume root default telah meningkat menjadi 15 GB di Amazon EMR 6.10.0 dan lebih tinggi. Rilis sebelumnya memiliki ukuran volume root default 10 GB.

  • Hadoop 3.3.3 memperkenalkan perubahan pada YARN (YARN-9608) yang membuat node tempat kontainer berjalan dalam keadaan dekomisioning hingga aplikasi selesai. Perubahan ini memastikan bahwa data lokal seperti data acak tidak hilang, dan Anda tidak perlu menjalankan kembali pekerjaan. Pendekatan ini juga dapat menyebabkan kurangnya pemanfaatan sumber daya pada cluster dengan atau tanpa penskalaan terkelola diaktifkan.

    Dengan Amazon EMR merilis 6.11.0 dan yang lebih tinggi serta 6.8.1, 6.9.1, dan 6.10.1, nilai ditetapkan untuk mengatasi masalah ini. yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications false yarn-site.xml

    Sementara perbaikan mengatasi masalah yang diperkenalkan oleh YARN-9608, hal itu dapat menyebabkan pekerjaan Hive gagal karena kehilangan data acak pada cluster yang telah mengelola penskalaan diaktifkan. Kami telah mengurangi risiko itu dalam rilis ini dengan juga menyetel yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-shuffle-data beban kerja Hive. Konfigurasi ini hanya tersedia dengan rilis Amazon EMR 6.11.0 dan yang lebih tinggi.

  • Saat Anda meluncurkan cluster dengan rilis patch terbaru Amazon EMR 5.36 atau lebih tinggi, atau 6.6 atau lebih tinggi, Amazon EMR menggunakan rilis Amazon Linux 2 terbaru untuk Amazon EMR AMI default. Untuk informasi selengkapnya, lihat Menggunakan AMI Amazon Linux default untuk Amazon EMR.

    catatan

    Rilis ini tidak lagi mendapatkan pembaruan AMI otomatis karena telah digantikan oleh 1 rilis patch lagi. Rilis patch dilambangkan dengan angka setelah titik desimal kedua (). 6.8.1 Untuk melihat apakah Anda menggunakan rilis patch terbaru, periksa rilis yang tersedia di Panduan Rilis, atau periksa dropdown rilis Amazon EMR saat Anda membuat klaster di konsol, atau gunakan tindakan API ListReleaseLabelsatau CLI. list-release-labels Untuk mendapatkan pembaruan tentang rilis baru, berlangganan umpan RSS di Apa yang baru? halaman.

    OsReleaseLabel (Versi Amazon Linux) Versi kernel Amazon Linux Tanggal yang tersedia Wilayah yang Didukung
    2.0.20230808.0 4.14.320 24 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230727.0 4.14.320 Agustus 14, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230719.0 4.14.320 2 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230628.0 4.14.318 Juli 12, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Zurich), Eropa (Milan), Eropa (Spanyol), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA)
    2.0.20230612.0 4.14.314 Juni 23, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Zurich), Eropa (Milan), Eropa (Spanyol), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA)
    2.0.20230504.1 4.14.313 16 Mei 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah)

Rilis 6.10.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 6.10.0. Perubahan relatif terhadap 6.9.0. Untuk informasi tentang timeline rilis, lihat log perubahan.

Fitur baru
  • Amazon EMR 6.10.0 mendukung Apache Spark 3.3.1, Apache Spark RAPIDS 22.12.0, CUDA 11.8.0, Apache Hudi 0.12.2-amzn-0, Apache Iceberg 1.1.0-amzn-0, Trino 403, dan PrestoDB 0.278.1.

  • Amazon EMR 6.10.0 menyertakan konektor Trino-Hudi asli yang menyediakan akses baca ke data dalam tabel Hudi. Anda dapat mengaktifkan konektor dengantrino-cli --catalog hudi, dan mengkonfigurasi konektor untuk kebutuhan Andatrino-connector-hudi. Integrasi asli dengan Amazon EMR berarti Anda tidak perlu lagi menggunakan trino-connector-hive untuk menanyakan tabel Hudi. Untuk daftar konfigurasi yang didukung dengan konektor baru, lihat halaman konektor Hudi dari dokumentasi Trino.

  • Amazon EMR merilis 6.10.0 dan lebih tinggi mendukung integrasi Apache Zeppelin dengan Apache Flink. Lihat Bekerja dengan pekerjaan Flink dari Zeppelin di Amazon EMR untuk informasi selengkapnya.

Masalah yang Diketahui
  • Hadoop 3.3.3 memperkenalkan perubahan pada YARN (YARN-9608) yang membuat node tempat kontainer berjalan dalam keadaan dekomisioning hingga aplikasi selesai. Perubahan ini memastikan bahwa data lokal seperti data acak tidak hilang, dan Anda tidak perlu menjalankan kembali pekerjaan. Pendekatan ini juga dapat menyebabkan kurangnya pemanfaatan sumber daya pada cluster dengan atau tanpa penskalaan terkelola diaktifkan.

    Untuk mengatasi masalah ini di Amazon EMR 6.10.0, Anda dapat mengatur nilai ke in. yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications false yarn-site.xml Di Amazon EMR merilis 6.11.0 dan yang lebih tinggi serta 6.8.1, 6.9.1, dan 6.10.1, konfigurasi disetel ke default untuk menyelesaikan masalah ini. false

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Amazon EMR 6.10.0 menghapus dependensi untuk integrasi minimal-json.jar Amazon Redshift untuk Apache Spark, dan secara otomatis menambahkan stoples terkait Spark-Redshift yang diperlukan ke jalur kelas pelaksana untuk Spark:,, dan. spark-redshift.jar spark-avro.jar RedshiftJDBC.jar

  • Rilis 6.10.0 meningkatkan daemon manajemen log on-cluster untuk memantau folder log tambahan di cluster EMR Anda. Peningkatan ini meminimalkan skenario pemanfaatan disk yang berlebihan.

  • Rilis 6.10.0 secara otomatis memulai ulang daemon manajemen log on-cluster saat berhenti. Peningkatan ini mengurangi risiko node tampak tidak sehat karena pemanfaatan disk yang berlebihan.

  • Amazon EMR 6.10.0 mendukung titik akhir regional untuk pemetaan pengguna EMRFS.

  • Ukuran volume root default telah meningkat menjadi 15 GB di Amazon EMR 6.10.0 dan lebih tinggi. Rilis sebelumnya memiliki ukuran volume root default 10 GB.

  • Rilis 6.10.0 memperbaiki masalah yang menyebabkan pekerjaan Spark terhenti saat semua pelaksana Spark yang tersisa berada di host penonaktifan dengan manajer sumber daya YARN.

  • Dengan Amazon EMR 6.6.0 hingga 6.9.x, kueri INSERT dengan partisi dinamis dan klausa ORDER BY atau SORT BY akan selalu memiliki dua reduksi. Masalah ini disebabkan oleh perubahan OSS HIVE-20703, yang menempatkan optimasi partisi pengurutan dinamis di bawah keputusan berbasis biaya. Jika beban kerja Anda tidak memerlukan penyortiran partisi dinamis, kami sarankan Anda mengatur hive.optimize.sort.dynamic.partition.threshold properti -1 untuk menonaktifkan fitur baru dan mendapatkan jumlah reduksi yang dihitung dengan benar. Masalah ini diperbaiki di OSS Hive sebagai bagian dari HIVE-22269 dan diperbaiki di Amazon EMR 6.10.0.

  • Saat Anda meluncurkan cluster dengan rilis patch terbaru Amazon EMR 5.36 atau lebih tinggi, atau 6.6 atau lebih tinggi, Amazon EMR menggunakan rilis Amazon Linux 2 terbaru untuk Amazon EMR AMI default. Untuk informasi selengkapnya, lihat Menggunakan AMI Amazon Linux default untuk Amazon EMR.

    catatan

    Rilis ini tidak lagi mendapatkan pembaruan AMI otomatis karena telah digantikan oleh 1 rilis patch lagi. Rilis patch dilambangkan dengan angka setelah titik desimal kedua (). 6.8.1 Untuk melihat apakah Anda menggunakan rilis patch terbaru, periksa rilis yang tersedia di Panduan Rilis, atau periksa dropdown rilis Amazon EMR saat Anda membuat klaster di konsol, atau gunakan tindakan API ListReleaseLabelsatau CLI. list-release-labels Untuk mendapatkan pembaruan tentang rilis baru, berlangganan umpan RSS di Apa yang baru? halaman.

    OsReleaseLabel (Versi Amazon Linux) Versi kernel Amazon Linux Tanggal yang tersedia Wilayah yang Didukung
    2.0.20230808.0 4.14.320 24 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230727.0 4.14.320 Agustus 14, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230719.0 4.14.320 2 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230628.0 4.14.318 Juli 12, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Zurich), Eropa (Milan), Eropa (Spanyol), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA)
    2.0.20230612.0 4.14.314 Juni 23, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Zurich), Eropa (Milan), Eropa (Spanyol), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA)
    2.0.20230504.1 4.14.313 16 Mei 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Zurich), Eropa (Milan), Eropa (Spanyol), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA)
    2.0.20230418.0 4.14.311 3 Mei 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Zurich), Eropa (Milan), Eropa (Spanyol), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA)
    2.0.20230404.1 4.14.311 April 18, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA)
    2.0.20230404.0 4.14.311 April 10, 2023 AS Timur (Virginia N.), Eropa (Paris)
    2.0.20230320.0 4.14.309 30 Maret 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA)
    2.0.20230207.0 4.14.304 Februari 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA)

Rilis 6.9.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 6.9.0. Perubahan relatif terhadap Amazon EMR rilis 6.8.0. Untuk informasi tentang timeline rilis, lihat log perubahan.

Fitur Baru
  • Amazon EMR rilis 6.9.0 mendukung Apache Spark RAPIDS 22.08.0, Apache Hudi 0.12.1, Apache Iceberg 0.14.1, Trino 398, dan Tez 0.10.2.

  • Amazon EMR rilis 6.9.0 menyertakan aplikasi open-source baru, 2.1.0. Danau Delta

  • Integrasi Amazon Redshift untuk Apache Spark disertakan dalam rilis Amazon EMR 6.9.0 dan yang lebih baru. Sebelumnya alat open-source, integrasi asli adalah konektor Spark yang dapat Anda gunakan untuk membangun aplikasi Apache Spark yang membaca dan menulis ke data di Amazon Redshift dan Amazon Redshift Serverless. Untuk informasi selengkapnya, lihat Menggunakan integrasi Amazon Redshift untuk Apache Spark dengan Amazon EMR .

  • Amazon EMR rilis 6.9.0 menambahkan dukungan untuk pengarsipan log ke Amazon S3 selama penskalaan klaster turun. Sebelumnya, Anda hanya dapat mengarsipkan file log ke Amazon S3 selama penghentian klaster. Kemampuan baru memastikan bahwa file log yang dihasilkan di cluster tetap ada di Amazon S3 bahkan setelah node dihentikan. Untuk informasi selengkapnya, lihat Mengkonfigurasi logging dan debug klaster.

  • Untuk mendukung kueri yang berjalan lama, Trino sekarang menyertakan mekanisme eksekusi yang toleran terhadap kesalahan. Eksekusi toleran kesalahan mengurangi kegagalan kueri dengan mencoba kembali kueri yang gagal atau tugas komponennya. Untuk informasi selengkapnya, lihat Eksekusi toleran kesalahan di Trino.

  • Anda dapat menggunakan Apache Flink di Amazon EMR untuk menyatukan BATCH dan STREAM memproses Tabel Apache Hive atau metadata dari semua sumber meja Flink seperti Gunung Es, Kinesis, atau Kafka. Anda dapat menentukan Katalog Data AWS Glue sebagai metastore untuk Flink menggunakanAWS Management Console,, AWS CLI atau Amazon EMR API. Untuk informasi selengkapnya, lihat Mengkonfigurasi Flink di Amazon EMR.

  • Sekarang Anda dapat menentukan peran runtime AWS Identity and Access Management (IAM) dan kontrol akses AWS Lake Formation berbasis untuk kueri Apache Spark, Apache Hive, dan Presto di Amazon EMR pada kluster EC2 dengan Amazon Studio. SageMaker Untuk informasi selengkapnya, lihat Mengonfigurasi peran runtime untuk langkah-langkah EMR Amazon.

Masalah yang Diketahui
  • Untuk Amazon EMR rilis 6.9.0, Trino tidak bekerja pada cluster yang diaktifkan untuk Apache Ranger. Jika Anda perlu menggunakan Trino dengan Ranger, hubungi. AWS Support

  • Jika Anda menggunakan integrasi Amazon Redshift untuk Apache Spark dan memiliki waktu, jadwal, stempel waktu, atau timestamptz dengan presisi mikrodetik dalam format Parket, konektor membulatkan nilai waktu ke nilai milidetik terdekat. Sebagai solusinya, gunakan parameter format pembongkaran teks. unload_s3_format

  • Saat Anda menggunakan format lokasi partisi Spark dengan Hive untuk membaca data di Amazon S3, dan Anda menjalankan Spark di Amazon EMR rilis 5.30.0 hingga 5.36.0, dan 6.2.0 hingga 6.9.0, Anda mungkin mengalami masalah yang mencegah klaster membaca data dengan benar. Ini dapat terjadi jika partisi Anda memiliki semua karakteristik berikut:

    • Dua atau lebih partisi dipindai dari tabel yang sama.

    • Setidaknya satu jalur direktori partisi adalah awalan dari setidaknya satu jalur direktori partisi lainnya, misalnya, s3://bucket/table/p=a adalah awalan dari. s3://bucket/table/p=a b

    • Karakter pertama yang mengikuti awalan di direktori partisi lain memiliki nilai UTF-8 yang kurang dari / karakter (U+002F). Misalnya, karakter spasi (U+0020) yang terjadi antara a dan b masuk s3://bucket/table/p=a b termasuk dalam kategori ini. Perhatikan bahwa ada 14 karakter non-kontrol lainnya:!"#$%&‘()*+,-. Untuk informasi selengkapnya, lihat tabel pengkodean UTF-8 dan karakter Unicode.

    Sebagai solusi untuk masalah ini, setel spark.sql.sources.fastS3PartitionDiscovery.enabled konfigurasi ke false dalam klasifikasi. spark-defaults

  • Koneksi ke kluster EMR Amazon dari Amazon SageMaker Studio mungkin sebentar-sebentar gagal dengan kode respons 403 Forbidden. Kesalahan ini terjadi ketika pengaturan peran IAM di cluster membutuhkan waktu lebih dari 60 detik. Sebagai solusinya, Anda dapat menginstal patch EMR Amazon untuk mengaktifkan percobaan ulang dan meningkatkan batas waktu hingga minimal 300 detik. Gunakan langkah-langkah berikut untuk menerapkan tindakan bootstrap saat Anda meluncurkan cluster Anda.

    1. Unduh skrip bootstrap dan file RPM dari URI Amazon S3 berikut.

      s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/replace-rpms.sh s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/emr-secret-agent-1.18.0-SNAPSHOT20221121212949.noarch.rpm
    2. Unggah file dari langkah sebelumnya ke bucket Amazon S3 yang Anda miliki. Ember harus berada di tempat yang sama Wilayah AWS di mana Anda berencana untuk meluncurkan cluster.

    3. Sertakan tindakan bootstrap berikut saat Anda meluncurkan cluster EMR Anda. Ganti Bootstrap_URI dan RPM_URI dengan URI yang sesuai dari Amazon S3.

      --bootstrap-actions "Path=bootstrap_URI,Args=[RPM_URI]"
  • Dengan Amazon EMR merilis 5.36.0 dan 6.6.0 hingga 6.9.0, SecretAgent dan komponen RecordServer layanan mungkin mengalami kehilangan data log karena konfigurasi pola nama file yang salah di properti Log4j2. Konfigurasi yang salah menyebabkan komponen menghasilkan hanya satu file log per hari. Ketika strategi rotasi terjadi, ia menimpa file yang ada alih-alih menghasilkan file log baru seperti yang diharapkan. Sebagai solusinya, gunakan tindakan bootstrap untuk menghasilkan file log setiap jam dan tambahkan bilangan bulat kenaikan otomatis dalam nama file untuk menangani rotasi.

    Untuk Amazon EMR 6.6.0 hingga 6.9.0 rilis, gunakan tindakan bootstrap berikut saat Anda meluncurkan cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Untuk Amazon EMR 5.36.0, gunakan tindakan bootstrap berikut saat Anda meluncurkan cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
  • Apache Flink menyediakan Native S3 FileSystem dan Hadoop FileSystem Connectors, yang memungkinkan aplikasi membuat FileSink dan menulis data ke Amazon S3. Ini FileSink gagal dengan salah satu dari dua pengecualian berikut.

    java.lang.UnsupportedOperationException: Recoverable writers on Hadoop are only supported for HDFS
    Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryPolicies.retryOtherThanRemoteAndSaslException(Lorg/apache/hadoop/io/retry/RetryPolicy;Ljava/util/Map;)Lorg/apache/hadoop/io/retry/RetryPolicy; at org.apache.hadoop.yarn.client.RMProxy.createRetryPolicy(RMProxy.java:302) ~[hadoop-yarn-common-3.3.3-amzn-0.jar:?]

    Sebagai solusinya, Anda dapat menginstal tambalan EMR Amazon, yang memperbaiki masalah di atas di Flink. Untuk menerapkan tindakan bootstrap saat Anda meluncurkan cluster Anda, selesaikan langkah-langkah berikut.

    1. Unduh flink-rpm ke bucket Amazon S3 Anda. Jalur RPM Anda adalahs3://DOC-EXAMPLE-BUCKET/rpms/flink/.

    2. Unduh skrip bootstrap dan file RPM dari Amazon S3 menggunakan URI berikut. Ganti regionName dengan Wilayah AWS tempat Anda berencana untuk meluncurkan cluster.

      s3://emr-data-access-control-regionName/customer-bootstrap-actions/gcsc/replace-rpms.sh
    3. Hadoop 3.3.3 memperkenalkan perubahan pada YARN (YARN-9608) yang membuat node tempat kontainer berjalan dalam keadaan dekomisioning hingga aplikasi selesai. Perubahan ini memastikan bahwa data lokal seperti data acak tidak hilang, dan Anda tidak perlu menjalankan kembali pekerjaan. Di Amazon EMR 6.8.0 dan 6.9.0, pendekatan ini juga dapat menyebabkan kurangnya pemanfaatan sumber daya pada cluster dengan atau tanpa penskalaan terkelola diaktifkan.

      Dengan Amazon EMR 6.10.0, ada solusi untuk masalah ini untuk menetapkan nilai ke in. yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications false yarn-site.xml Di Amazon EMR merilis 6.11.0 dan yang lebih tinggi serta 6.8.1, 6.9.1, dan 6.10.1, konfigurasi disetel ke default untuk menyelesaikan masalah ini. false

Perubahan, Penyempurnaan, dan Masalah Terselesaikan
  • Untuk Amazon EMR rilis 6.9.0 dan yang lebih baru, semua komponen yang diinstal oleh Amazon EMR yang menggunakan pustaka Log4j menggunakan Log4j versi 2.17.1 atau yang lebih baru.

  • Saat Anda menggunakan konektor DynamoDB dengan Spark di Amazon EMR versi 6.6.0, 6.7.0, dan 6.8.0, semua pembacaan dari tabel Anda mengembalikan hasil kosong, meskipun pemisahan input mereferensikan data yang tidak kosong. Amazon EMR rilis 6.9.0 memperbaiki masalah ini.

  • Amazon EMR 6.9.0 menambahkan dukungan terbatas untuk kontrol akses berbasis Lake Formation dengan Apache Hudi saat membaca data menggunakan Spark SQL. Dukungan ini untuk kueri SELECT menggunakan Spark SQL dan terbatas pada kontrol akses tingkat kolom. Untuk informasi lebih lanjut, lihat Hudi dan Lake Formation.

  • Saat Anda menggunakan Amazon EMR 6.9.0 untuk membuat klaster Hadoop dengan Node Labels diaktifkan, API metrik YARN mengembalikan informasi agregat di semua partisi, bukan partisi default. Untuk informasi lebih lanjut, lihat YARN-11414.

  • Dengan Amazon EMR rilis 6.9.0, kami telah memperbarui Trino ke versi 398, yang menggunakan Java 17. Versi Trino yang didukung sebelumnya untuk Amazon EMR 6.8.0 adalah Trino 388 yang berjalan di Java 11. Untuk informasi lebih lanjut tentang perubahan ini, lihat pembaruan Trino ke Java 17 di blog Trino.

  • Rilis ini memperbaiki masalah ketidakcocokan urutan waktu antara Apache BigTop dan Amazon EMR pada urutan startup cluster EC2. Ketidakcocokan urutan waktu ini terjadi ketika sistem mencoba melakukan dua atau lebih operasi pada saat yang sama alih-alih melakukannya dalam urutan yang tepat. Akibatnya, konfigurasi cluster tertentu mengalami timeout startup instance dan waktu startup cluster yang lebih lambat.

  • Saat Anda meluncurkan cluster dengan rilis patch terbaru Amazon EMR 5.36 atau lebih tinggi, atau 6.6 atau lebih tinggi, Amazon EMR menggunakan rilis Amazon Linux 2 terbaru untuk Amazon EMR AMI default. Untuk informasi selengkapnya, lihat Menggunakan AMI Amazon Linux default untuk Amazon EMR.

    catatan

    Rilis ini tidak lagi mendapatkan pembaruan AMI otomatis karena telah digantikan oleh 1 rilis patch lagi. Rilis patch dilambangkan dengan angka setelah titik desimal kedua (). 6.8.1 Untuk melihat apakah Anda menggunakan rilis patch terbaru, periksa rilis yang tersedia di Panduan Rilis, atau periksa dropdown rilis Amazon EMR saat Anda membuat klaster di konsol, atau gunakan tindakan API ListReleaseLabelsatau CLI. list-release-labels Untuk mendapatkan pembaruan tentang rilis baru, berlangganan umpan RSS di Apa yang baru? halaman.

    OsReleaseLabel (Versi Amazon Linux) Versi kernel Amazon Linux Tanggal yang tersedia Wilayah yang Didukung
    2.0.20230808.0 4.14.320 24 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230727.0 4.14.320 Agustus 14, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230719.0 4.14.320 2 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah), Israel (Tel Aviv)
    2.0.20230628.0 4.14.318 Juli 12, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230612.0 4.14.314 Juni 23, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230504.1 4.14.313 16 Mei 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230418.0 4.14.311 3 Mei 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230404.1 4.14.311 April 18, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230404.0 4.14.311 April 10, 2023 AS Timur (Virginia N.), Eropa (Paris)
    2.0.20230320.0 4.14.309 30 Maret 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230307.0 4.14.305 Maret 15, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230207.0 4.14.304 Februari 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20221210.1 4.14.301 Januari 12, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20221103.3 4.14.296 Desember 5, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)

Rilis 6.8.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 6.8.0. Perubahan relatif terhadap 6.7.0.

Fitur Baru
  • Fitur langkah EMR Amazon sekarang mendukung titik akhir Apache Livy dan klien JDBC/ODBC. Untuk informasi selengkapnya, lihat Mengonfigurasi peran runtime untuk langkah-langkah EMR Amazon.

  • Amazon EMR rilis 6.8.0 hadir dengan rilis Apache HBase 2.4.12. Dengan rilis HBase ini, Anda dapat mengarsipkan dan menghapus tabel HBase Anda. Proses arsip Amazon S3 mengganti nama semua file tabel ke direktori arsip. Ini bisa menjadi proses yang mahal dan panjang. Sekarang, Anda dapat melewati proses arsip dan dengan cepat menjatuhkan dan menghapus tabel besar. Untuk informasi selengkapnya, lihat Menggunakan shell HBase.

Masalah yang Diketahui
  • Hadoop 3.3.3 memperkenalkan perubahan pada YARN (YARN-9608) yang membuat node tempat kontainer berjalan dalam keadaan dekomisioning hingga aplikasi selesai. Perubahan ini memastikan bahwa data lokal seperti data acak tidak hilang, dan Anda tidak perlu menjalankan kembali pekerjaan. Di Amazon EMR 6.8.0 dan 6.9.0, pendekatan ini juga dapat menyebabkan kurangnya pemanfaatan sumber daya pada cluster dengan atau tanpa penskalaan terkelola diaktifkan.

    Dengan Amazon EMR 6.10.0, ada solusi untuk masalah ini untuk menetapkan nilai ke in. yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications false yarn-site.xml Di Amazon EMR merilis 6.11.0 dan yang lebih tinggi serta 6.8.1, 6.9.1, dan 6.10.1, konfigurasi disetel ke default untuk menyelesaikan masalah ini. false

Perubahan, Penyempurnaan, dan Masalah Terselesaikan
  • Ketika Amazon EMR merilis 6.5.0, 6.6.0, atau 6.7.0 membaca tabel Apache Phoenix melalui shell Apache Spark, Amazon EMR menghasilkan file. NoSuchMethodError Amazon EMR rilis 6.8.0 memperbaiki masalah ini.

  • Amazon EMR rilis 6.8.0 hadir dengan Apache Hudi 0.11.1; Namun, Amazon EMR 6.8.0 cluster juga kompatibel dengan open-source dari Hudi 0.12.0. hudi-spark3.3-bundle_2.12

  • Amazon EMR rilis 6.8.0 hadir dengan Apache Spark 3.3.0. Rilis Spark ini menggunakan Apache Log4j 2 dan log4j2.properties file untuk mengkonfigurasi Log4j dalam proses Spark. Jika Anda menggunakan Spark di cluster atau membuat kluster EMR dengan parameter konfigurasi kustom, dan Anda ingin meningkatkan ke Amazon EMR rilis 6.8.0, Anda harus bermigrasi ke klasifikasi konfigurasi spark-log4j2 baru dan format kunci untuk Apache Log4j 2. Untuk informasi selengkapnya, lihat Migrasi dari Apache Log4j 1.x ke Log4j 2.x.

  • Saat Anda meluncurkan cluster dengan rilis patch terbaru Amazon EMR 5.36 atau lebih tinggi, atau 6.6 atau lebih tinggi, Amazon EMR menggunakan rilis Amazon Linux 2 terbaru untuk Amazon EMR AMI default. Untuk informasi selengkapnya, lihat Menggunakan AMI Amazon Linux default untuk Amazon EMR.

    catatan

    Rilis ini tidak lagi mendapatkan pembaruan AMI otomatis karena telah digantikan oleh 1 rilis patch lagi. Rilis patch dilambangkan dengan angka setelah titik desimal kedua (). 6.8.1 Untuk melihat apakah Anda menggunakan rilis patch terbaru, periksa rilis yang tersedia di Panduan Rilis, atau periksa dropdown rilis Amazon EMR saat Anda membuat klaster di konsol, atau gunakan tindakan API ListReleaseLabelsatau CLI. list-release-labels Untuk mendapatkan pembaruan tentang rilis baru, berlangganan umpan RSS di Apa yang baru? halaman.

    OsReleaseLabel (Versi Amazon Linux) Versi Kernel Amazon Linux Tanggal Tersedia Wilayah yang Didukung
    2.0.20230808.0 4.14.320 24 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Kanada (Tengah)
    2.0.20230727.0 4.14.320 Agustus 14, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah),
    2.0.20230719.0 4.14.320 2 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Asia Pasifik (Melbourne), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah)
    2.0.20230628.0 4.14.318 Juli 12, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230612.0 4.14.314 Juni 23, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230504.1 4.14.313 16 Mei 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230418.0 4.14.311 3 Mei 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230404.1 4.14.311 April 18, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230404.0 4.14.311 April 10, 2023 AS Timur (Virginia N.), Eropa (Paris)
    2.0.20230320.0 4.14.309 30 Maret 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230307.0 4.14.305 Maret 15, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230207.0 4.14.304 Februari 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230119.1 4.14.301 Februari 3, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20221210.1 4.14.301 Desember 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20221103.3 4.14.296 Desember 5, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20221004.0 4.14.294 November 2, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20220912.1 4.14.291 September 6, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
Masalah yang Diketahui
  • Saat Anda menggunakan konektor DynamoDB dengan Spark di Amazon EMR versi 6.6.0, 6.7.0, dan 6.8.0, semua pembacaan dari tabel Anda mengembalikan hasil kosong, meskipun pemisahan input mereferensikan data yang tidak kosong. Ini karena Spark 3.2.0 disetel spark.hadoopRDD.ignoreEmptySplits ke true default. Sebagai solusinya, setel secara eksplisit ke. spark.hadoopRDD.ignoreEmptySplits false Amazon EMR rilis 6.9.0 memperbaiki masalah ini.

  • Saat Anda menggunakan format lokasi partisi Spark dengan Hive untuk membaca data di Amazon S3, dan Anda menjalankan Spark di Amazon EMR rilis 5.30.0 hingga 5.36.0, dan 6.2.0 hingga 6.9.0, Anda mungkin mengalami masalah yang mencegah klaster membaca data dengan benar. Ini dapat terjadi jika partisi Anda memiliki semua karakteristik berikut:

    • Dua atau lebih partisi dipindai dari tabel yang sama.

    • Setidaknya satu jalur direktori partisi adalah awalan dari setidaknya satu jalur direktori partisi lainnya, misalnya, s3://bucket/table/p=a adalah awalan dari. s3://bucket/table/p=a b

    • Karakter pertama yang mengikuti awalan di direktori partisi lain memiliki nilai UTF-8 yang kurang dari / karakter (U+002F). Misalnya, karakter spasi (U+0020) yang terjadi antara a dan b masuk s3://bucket/table/p=a b termasuk dalam kategori ini. Perhatikan bahwa ada 14 karakter non-kontrol lainnya:!"#$%&‘()*+,-. Untuk informasi selengkapnya, lihat tabel pengkodean UTF-8 dan karakter Unicode.

    Sebagai solusi untuk masalah ini, setel spark.sql.sources.fastS3PartitionDiscovery.enabled konfigurasi ke false dalam klasifikasi. spark-defaults

  • Dengan Amazon EMR merilis 5.36.0 dan 6.6.0 hingga 6.9.0, SecretAgent dan komponen RecordServer layanan mungkin mengalami kehilangan data log karena konfigurasi pola nama file yang salah di properti Log4j2. Konfigurasi yang salah menyebabkan komponen menghasilkan hanya satu file log per hari. Ketika strategi rotasi terjadi, ia menimpa file yang ada alih-alih menghasilkan file log baru seperti yang diharapkan. Sebagai solusinya, gunakan tindakan bootstrap untuk menghasilkan file log setiap jam dan tambahkan bilangan bulat kenaikan otomatis dalam nama file untuk menangani rotasi.

    Untuk Amazon EMR 6.6.0 hingga 6.9.0 rilis, gunakan tindakan bootstrap berikut saat Anda meluncurkan cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Untuk Amazon EMR 5.36.0, gunakan tindakan bootstrap berikut saat Anda meluncurkan cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"

Untuk informasi selengkapnya tentang timeline rilis, lihat log perubahan.

Rilis 6.7.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 6.7.0. Perubahan relatif terhadap 6.6.0.

Tanggal rilis awal: 15 Juli 2022

Fitur Baru
  • Amazon EMR sekarang mendukung Apache Spark 3.2.1, Apache Hive 3.1.3, HUDI 0.11, PrestoDB 0.272, dan Trino 0.378.

  • Mendukung kontrol akses berbasis Peran IAM dan Lake Formation dengan langkah-langkah EMR (Spark, Hive) untuk Amazon EMR pada kluster EC2.

  • Mendukung pernyataan definisi data Apache Spark pada cluster yang diaktifkan Apache Ranger. Ini sekarang termasuk dukungan untuk aplikasi Trino membaca dan menulis metadata Apache Hive pada kluster yang diaktifkan Apache Ranger. Untuk informasi selengkapnya, lihat Mengaktifkan tata kelola federasi menggunakan Trino dan Apache Ranger di Amazon EMR.

  • Saat Anda meluncurkan cluster dengan rilis patch terbaru Amazon EMR 5.36 atau lebih tinggi, atau 6.6 atau lebih tinggi, Amazon EMR menggunakan rilis Amazon Linux 2 terbaru untuk Amazon EMR AMI default. Untuk informasi selengkapnya, lihat Menggunakan AMI Amazon Linux default untuk Amazon EMR.

    OsReleaseLabel (Versi Amazon Linux) Versi Kernel Amazon Linux Tanggal Tersedia Wilayah yang Didukung
    2.0.20231206.0 4.14.330 Desember 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), (AS-Barat), (AS-Timur), China AWS GovCloud (Beijing), China AWS GovCloud (Ningxia)
    2.0.20231116.0 4.14.328 Desember 11, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), (AS-Barat), (AS-Timur), China AWS GovCloud (Beijing), China AWS GovCloud (Ningxia)
    2.0.20231101.0 4.14.327 16 November 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), (AS-Barat), (AS-Timur), China AWS GovCloud (Beijing), China AWS GovCloud (Ningxia)
    2.0.20231020.1 4.14.326 7 November 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), (AS-Barat), (AS-Timur), China AWS GovCloud (Beijing), China AWS GovCloud (Ningxia)
    2.0.20231012.1 4.14.326 26 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), (AS-Barat), (AS-Timur), China AWS GovCloud (Beijing), China AWS GovCloud (Ningxia)
    2.0.20230926.0 4.14.322 19 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), (AS-Barat), (AS-Timur), China AWS GovCloud (Beijing), China AWS GovCloud (Ningxia)
    2.0.20230906.0 4.14.322 4 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah)
    2.0.20230822.0 4.14.322 Agustus 30, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah)
    2.0.20230808.0 4.14.320 24 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah)
    2.0.20230727.0 4.14.320 Agustus 14, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah)
    2.0.20230719.0 4.14.320 2 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah)
    2.0.20230628.0 4.14.318 Juli 12, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230612.0 4.14.314 Juni 23, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230504.1 4.14.313 16 Mei 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230418.0 4.14.311 3 Mei 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230404.1 4.14.311 April 18, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230404.0 4.14.311 April 10, 2023 AS Timur (Virginia N.), Eropa (Paris)
    2.0.20230320.0 4.14.309 30 Maret 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230307.0 4.14.305 Maret 15, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230207.0 4.14.304 Februari 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230119.1 4.14.301 Februari 3, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20221210.1 4.14.301 Desember 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20221103.3 4.14.296 Desember 5, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20221004.0 4.14.294 November 2, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20220912.1 4.14.291 Oktober 7, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20220719.0 4.14.287 Agustus 10, 2022 us‑west‑1, eu‑west‑3, eu‑north‑1, ap‑south‑1, me‑south‑1
    2.0.20220606.1 4.14.281 Juli 15, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
Masalah yang Diketahui
  • Ketika Amazon EMR merilis 6.5.0, 6.6.0, atau 6.7.0 membaca tabel Apache Phoenix melalui shell Apache Spark, terjadi karena Amazon EMR menggunakan yang NoSuchMethodError salah. Hbase.compat.version Amazon EMR rilis 6.8.0 memperbaiki masalah ini.

  • Saat Anda menggunakan konektor DynamoDB dengan Spark di Amazon EMR versi 6.6.0, 6.7.0, dan 6.8.0, semua pembacaan dari tabel Anda mengembalikan hasil kosong, meskipun pemisahan input mereferensikan data yang tidak kosong. Ini karena Spark 3.2.0 disetel spark.hadoopRDD.ignoreEmptySplits ke true default. Sebagai solusinya, setel secara eksplisit ke. spark.hadoopRDD.ignoreEmptySplits false Amazon EMR rilis 6.9.0 memperbaiki masalah ini.

  • Saat Anda menggunakan format lokasi partisi Spark dengan Hive untuk membaca data di Amazon S3, dan Anda menjalankan Spark di Amazon EMR rilis 5.30.0 hingga 5.36.0, dan 6.2.0 hingga 6.9.0, Anda mungkin mengalami masalah yang mencegah klaster membaca data dengan benar. Ini dapat terjadi jika partisi Anda memiliki semua karakteristik berikut:

    • Dua atau lebih partisi dipindai dari tabel yang sama.

    • Setidaknya satu jalur direktori partisi adalah awalan dari setidaknya satu jalur direktori partisi lainnya, misalnya, s3://bucket/table/p=a adalah awalan dari. s3://bucket/table/p=a b

    • Karakter pertama yang mengikuti awalan di direktori partisi lain memiliki nilai UTF-8 yang kurang dari / karakter (U+002F). Misalnya, karakter spasi (U+0020) yang terjadi antara a dan b masuk s3://bucket/table/p=a b termasuk dalam kategori ini. Perhatikan bahwa ada 14 karakter non-kontrol lainnya:!"#$%&‘()*+,-. Untuk informasi selengkapnya, lihat tabel pengkodean UTF-8 dan karakter Unicode.

    Sebagai solusi untuk masalah ini, setel spark.sql.sources.fastS3PartitionDiscovery.enabled konfigurasi ke false dalam klasifikasi. spark-defaults

  • Dengan Amazon EMR merilis 5.36.0 dan 6.6.0 hingga 6.9.0, SecretAgent dan komponen RecordServer layanan mungkin mengalami kehilangan data log karena konfigurasi pola nama file yang salah di properti Log4j2. Konfigurasi yang salah menyebabkan komponen menghasilkan hanya satu file log per hari. Ketika strategi rotasi terjadi, ia menimpa file yang ada alih-alih menghasilkan file log baru seperti yang diharapkan. Sebagai solusinya, gunakan tindakan bootstrap untuk menghasilkan file log setiap jam dan tambahkan bilangan bulat kenaikan otomatis dalam nama file untuk menangani rotasi.

    Untuk Amazon EMR 6.6.0 hingga 6.9.0 rilis, gunakan tindakan bootstrap berikut saat Anda meluncurkan cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Untuk Amazon EMR 5.36.0, gunakan tindakan bootstrap berikut saat Anda meluncurkan cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
  • GetClusterSessionCredentialsAPI tidak didukung dengan cluster yang berjalan di Amazon EMR 6.7 atau lebih rendah.

Rilis 6.6.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 6.6.0. Perubahan relatif terhadap 6.5.0.

Tanggal rilis awal: 9 Mei 2022

Tanggal dokumentasi yang diperbarui: Juni 15, 2022

Fitur Baru
  • Amazon EMR 6.6 sekarang mendukung Apache Spark 3.2, Apache Spark RAPIDS 22.02, CUDA 11, Apache Hudi 0.10.1, Apache Iceberg 0.13, Trino 0.367 dan PrestODB 0.267.

  • Saat Anda meluncurkan cluster dengan rilis patch terbaru Amazon EMR 5.36 atau lebih tinggi, atau 6.6 atau lebih tinggi, Amazon EMR menggunakan rilis Amazon Linux 2 terbaru untuk Amazon EMR AMI default. Untuk informasi selengkapnya, lihat Menggunakan AMI Amazon Linux default untuk Amazon EMR.

    OsReleaseLabel (Versi Amazon Linux) Versi Kernel Amazon Linux Tanggal Tersedia Wilayah yang Didukung
    2.0.20231206.0 4.14.330 Desember 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), (AS-Barat), (AS-Timur), China AWS GovCloud (Beijing), China AWS GovCloud (Ningxia)
    2.0.20231116.0 4.14.328 Desember 11, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), (AS-Barat), (AS-Timur), China AWS GovCloud (Beijing), China AWS GovCloud (Ningxia)
    2.0.20231101.0 4.14.327 16 November 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), (AS-Barat), (AS-Timur), China AWS GovCloud (Beijing), China AWS GovCloud (Ningxia)
    2.0.20231020.1 4.14.326 7 November 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), (AS-Barat), (AS-Timur), China AWS GovCloud (Beijing), China AWS GovCloud (Ningxia)
    2.0.20231012.1 4.14.326 26 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), (AS-Barat), (AS-Timur), China AWS GovCloud (Beijing), China AWS GovCloud (Ningxia)
    2.0.20230926.0 4.14.322 19 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah), (AS-Barat), (AS-Timur), China AWS GovCloud (Beijing), China AWS GovCloud (Ningxia)
    2.0.20230906.0 4.14.322 4 Oktober 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah)
    2.0.20230822.0 4.14.322 Agustus 30, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah)
    2.0.20230808.0 4.14.320 24 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah)
    2.0.20230727.0 4.14.320 Agustus 14, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain), Kanada (Tengah)
    2.0.20230719.0 4.14.320 2 Agustus 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Eropa (Stockholm), Eropa (Milan), Eropa (Spanyol), Eropa (Frankfurt), Eropa (Zurich), Eropa (Irlandia), Eropa (London), Eropa (Paris), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Hyderabad), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Jakarta), Afrika (Cape Town), Amerika Selatan (São Paulo), Timur Tengah (Bahrain), Timur Tengah (UEA), Kanada (Tengah)
    2.0.20230628.0 4.14.318 Juli 12, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230612.0 4.14.314 Juni 23, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230504.1 4.14.313 16 Mei 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230418.0 4.14.311 3 Mei 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230404.1 4.14.311 April 18, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230404.0 4.14.311 April 10, 2023 AS Timur (Virginia N.), Eropa (Paris)
    2.0.20230320.0 4.14.309 30 Maret 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230307.0 4.14.305 Maret 15, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230207.0 4.14.304 Februari 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20230119.1 4.14.301 Februari 3, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20221210.1 4.14.301 Desember 22, 2023 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20221103.3 4.14.296 Desember 5, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20221004.0 4.14.294 November 2, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20220912.1 4.14.291 Oktober 7, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20220805.0 4.14.287 Agustus 30, 2022 us‑west‑1
    2.0.20220719.0 4.14.287 Agustus 10, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20220426.0 4.14.281 Juni 10, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
    2.0.20220406.1 4.14.275 Mei 2, 2022 AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (California N.), AS Barat (Oregon), Kanada (Tengah), Eropa (Stockholm), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Frankfurt), Eropa (Milan), Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Jakarta), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), Asia Pasifik (Osaka), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Afrika (Cape Town), Amerika Selatan (Sao Paulo), Timur Tengah (Bahrain)
  • Dengan Amazon EMR 6.6 dan yang lebih baru, aplikasi yang menggunakan Log4j 1.x dan Log4j 2.x ditingkatkan untuk menggunakan Log4j 1.2.17 (atau lebih tinggi) dan Log4j 2.17.1 (atau lebih tinggi) masing-masing, dan tidak perlu menggunakan tindakan bootstrap yang disediakan untuk mengurangi masalah CVE.

  • [Penskalaan terkelola] Pengoptimalan penskalaan terkelola data shuffle percikan - Untuk Amazon EMR versi 5.34.0 dan yang lebih baru, dan EMR versi 6.4.0 dan yang lebih baru, penskalaan terkelola sekarang sadar data acak Spark (data yang didistribusikan ulang Spark di seluruh partisi untuk melakukan operasi tertentu). Untuk informasi selengkapnya tentang operasi shuffle, lihat Menggunakan penskalaan terkelola EMR di Amazon EMR di Panduan Manajemen EMR Amazon dan Panduan Pemrograman Spark.

  • Dimulai dengan Amazon EMR 5.32.0 dan 6.5.0, ukuran pelaksana dinamis untuk Apache Spark diaktifkan secara default. Untuk mengaktifkan atau menonaktifkan fitur ini, Anda dapat menggunakan parameter spark.yarn.heterogeneousExecutors.enabled konfigurasi.

Perubahan, Penyempurnaan, dan Masalah Terselesaikan
  • Amazon EMR mengurangi waktu startup cluster hingga 80 detik rata-rata untuk cluster yang menggunakan opsi AMI default EMR dan hanya menginstal aplikasi umum, seperti Apache Hadoop, Apache Spark dan Apache Hive.

Masalah yang Diketahui
  • Ketika Amazon EMR merilis 6.5.0, 6.6.0, atau 6.7.0 membaca tabel Apache Phoenix melalui shell Apache Spark, terjadi karena Amazon EMR menggunakan yang NoSuchMethodError salah. Hbase.compat.version Amazon EMR rilis 6.8.0 memperbaiki masalah ini.

  • Saat Anda menggunakan konektor DynamoDB dengan Spark di Amazon EMR versi 6.6.0, 6.7.0, dan 6.8.0, semua pembacaan dari tabel Anda mengembalikan hasil kosong, meskipun pemisahan input mereferensikan data yang tidak kosong. Ini karena Spark 3.2.0 disetel spark.hadoopRDD.ignoreEmptySplits ke true default. Sebagai solusinya, setel secara eksplisit ke. spark.hadoopRDD.ignoreEmptySplits false Amazon EMR rilis 6.9.0 memperbaiki masalah ini.

  • Pada klaster Trino yang sudah berjalan lama, Amazon EMR 6.6.0 memungkinkan parameter logging Pengumpulan Sampah di Trino jvm.config untuk mendapatkan wawasan yang lebih baik dari log Pengumpulan Sampah. Perubahan ini menambahkan banyak log Pengumpulan Sampah ke file launcher.log (/var/log/trino/launcher.log). Jika Anda menjalankan klaster Trino di Amazon EMR 6.6.0, Anda mungkin menemukan node kehabisan ruang disk setelah cluster berjalan selama beberapa hari karena log yang ditambahkan.

    Solusi untuk masalah ini adalah menjalankan skrip di bawah ini sebagai Tindakan Bootstrap untuk menonaktifkan parameter logging Pengumpulan Sampah di jvm.config saat membuat atau mengkloning cluster untuk Amazon EMR 6.6.0.

    #!/bin/bash set -ex PRESTO_PUPPET_DIR='/var/aws/emr/bigtop-deploy/puppet/modules/trino' sudo bash -c "sed -i '/-Xlog/d' ${PRESTO_PUPPET_DIR}/templates/jvm.config"
  • Saat Anda menggunakan format lokasi partisi Spark dengan Hive untuk membaca data di Amazon S3, dan Anda menjalankan Spark di Amazon EMR rilis 5.30.0 hingga 5.36.0, dan 6.2.0 hingga 6.9.0, Anda mungkin mengalami masalah yang mencegah klaster membaca data dengan benar. Ini dapat terjadi jika partisi Anda memiliki semua karakteristik berikut:

    • Dua atau lebih partisi dipindai dari tabel yang sama.

    • Setidaknya satu jalur direktori partisi adalah awalan dari setidaknya satu jalur direktori partisi lainnya, misalnya, s3://bucket/table/p=a adalah awalan dari. s3://bucket/table/p=a b

    • Karakter pertama yang mengikuti awalan di direktori partisi lain memiliki nilai UTF-8 yang kurang dari / karakter (U+002F). Misalnya, karakter spasi (U+0020) yang terjadi antara a dan b masuk s3://bucket/table/p=a b termasuk dalam kategori ini. Perhatikan bahwa ada 14 karakter non-kontrol lainnya:!"#$%&‘()*+,-. Untuk informasi selengkapnya, lihat tabel pengkodean UTF-8 dan karakter Unicode.

    Sebagai solusi untuk masalah ini, setel spark.sql.sources.fastS3PartitionDiscovery.enabled konfigurasi ke false dalam klasifikasi. spark-defaults

  • Dengan Amazon EMR merilis 5.36.0 dan 6.6.0 hingga 6.9.0, SecretAgent dan komponen RecordServer layanan mungkin mengalami kehilangan data log karena konfigurasi pola nama file yang salah di properti Log4j2. Konfigurasi yang salah menyebabkan komponen menghasilkan hanya satu file log per hari. Ketika strategi rotasi terjadi, ia menimpa file yang ada alih-alih menghasilkan file log baru seperti yang diharapkan. Sebagai solusinya, gunakan tindakan bootstrap untuk menghasilkan file log setiap jam dan tambahkan bilangan bulat kenaikan otomatis dalam nama file untuk menangani rotasi.

    Untuk Amazon EMR 6.6.0 hingga 6.9.0 rilis, gunakan tindakan bootstrap berikut saat Anda meluncurkan cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    Untuk Amazon EMR 5.36.0, gunakan tindakan bootstrap berikut saat Anda meluncurkan cluster.

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"

Rilis 5.35.0

Ini adalah catatan rilis Amazon EMR 5.35.0.

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.35.0. Perubahan relatif terhadap 5.34.0.

Tanggal rilis awal: 30 Maret 2022

Fitur Baru
  • Amazon EMR merilis 5.35 aplikasi yang menggunakan Log4j 1.x dan Log4j 2.x ditingkatkan untuk menggunakan Log4j 1.2.17 (atau lebih tinggi) dan Log4j 2.17.1 (atau lebih tinggi) masing-masing, dan tidak perlu menggunakan tindakan bootstrap untuk mengurangi masalah CVE di rilis sebelumnya. Lihat Pendekatan untuk mengurangi CVE-2021-44228.

Perubahan, Penyempurnaan, dan Masalah Terselesaikan

Flink berubah
Jenis perubahan Deskripsi
Upgrade
  • Perbarui versi flink ke 1.14.2.

  • log4j ditingkatkan ke 2.17.1.

Hadoop berubah
Jenis perubahan Deskripsi
Backport sumber terbuka Hadoop sejak EMR 5.34.0
  • YARN-10438: Menangani container null di clientRmService# () getContainerReport

  • YARN-7266: Utas pengendali acara Server Timeline terkunci

  • YARN-10438: ATS 1.5 gagal memulai jika RollingLevelDb file rusak atau hilang

  • HADOOP-13500: Menyinkronkan iterasi objek properti Konfigurasi

  • YARN-10651: CapacityScheduler jatuh dengan NPE di. AbstractYarnScheduler updateNodeResource()

  • HDFS-12221: Ganti xerces di XmlEditsVisitor

  • HDFS-16410: Penguraian Xml-tidak aman OfflineEditsXmlLoader

Perubahan dan perbaikan Hadoop
  • Tomcat yang digunakan di KMS dan HTTPFS ditingkatkan ke 8.5.75

  • Di FileSystemOptimizedCommitter V2, penanda keberhasilan ditulis di jalur keluaran CommitJob yang ditentukan saat membuat committer. Karena jalur keluaran CommitJob dan tingkat tugas dapat berbeda, jalur telah dikoreksi untuk menggunakan jalur yang ditentukan dalam file manifes. Untuk pekerjaan Hive, ini menghasilkan penanda keberhasilan yang ditulis dengan benar saat melakukan operasi seperti partisi dinamis atau UNION ALL.

Perubahan sarang
Jenis perubahan Deskripsi
Hive ditingkatkan ke rilis open source 2.3.9, termasuk perbaikan JIRA ini
  • HIVE-17155: findConfFile () di HiveConf .java memiliki beberapa masalah dengan jalur conf

  • HIVE-24797: Nonaktifkan validasi nilai default saat mengurai skema Avro

  • HIVE-21563: Tingkatkan kinerja Tabel getEmptyTable # dengan menonaktifkan Sekali registerAllFunctions

  • HIVE-18147: Pengujian bisa gagal dengan java.net. BindException: Alamat sudah digunakan

  • HIVE-24608: Beralih kembali ke get_table di klien HMS untuk Hive 2.3.x

  • HIVE-21200: Vektorisasi - kolom tanggal melempar java.lang. UnsupportedOperationException untuk parket

  • HIVE-19228: Hapus penggunaan commons-httpclient 3.x

Sarang backport sumber terbuka sejak EMR 5.34.0
  • HIVE-19990: Kueri dengan interval literal dalam kondisi gabungan gagal

  • HIVE-25824: Tingkatkan cabang-2.3 ke log4j 2.17.0

  • TEZ-4062: Penjadwalan upaya spekulatif harus dibatalkan ketika Tugas telah selesai

  • TEZ-4108: NullPointerException selama kondisi balapan eksekusi spekulatif

  • TEZ-3918: Pengaturan tez.task.log.level tidak berfungsi

Upgrade dan perbaikan sarang
  • Tingkatkan versi Log4j ke 2.17.1

  • Tingkatkan versi ORC ke 1.4.3

  • Kebuntuan tetap karena utas penalti di ShuffleScheduler

Fitur baru
  • Ditambahkan fitur untuk mencetak Hive Query di AM log. Ini dinonaktifkan secara default. Bendera/Conf:. tez.am.emr.print.hive.query.in.log Status (default): SALAH.

Perubahan Oozie
Jenis perubahan Deskripsi
Dukungan sumber terbuka Oozie sejak EMR 5.34.0
  • OOZIE-3652: Peluncur Oozie harus mencoba lagi daftar direktori ketika terjadi NoSuchFileException

Babi berubah
Jenis perubahan Deskripsi
Upgrade
  • log4j ditingkatkan ke 1.2.17.

Masalah yang diketahui
  • Saat Anda menggunakan format lokasi partisi Spark dengan Hive untuk membaca data di Amazon S3, dan Anda menjalankan Spark di Amazon EMR rilis 5.30.0 hingga 5.36.0, dan 6.2.0 hingga 6.9.0, Anda mungkin mengalami masalah yang mencegah klaster membaca data dengan benar. Ini dapat terjadi jika partisi Anda memiliki semua karakteristik berikut:

    • Dua atau lebih partisi dipindai dari tabel yang sama.

    • Setidaknya satu jalur direktori partisi adalah awalan dari setidaknya satu jalur direktori partisi lainnya, misalnya, s3://bucket/table/p=a adalah awalan dari. s3://bucket/table/p=a b

    • Karakter pertama yang mengikuti awalan di direktori partisi lain memiliki nilai UTF-8 yang kurang dari / karakter (U+002F). Misalnya, karakter spasi (U+0020) yang terjadi antara a dan b masuk s3://bucket/table/p=a b termasuk dalam kategori ini. Perhatikan bahwa ada 14 karakter non-kontrol lainnya:!"#$%&‘()*+,-. Untuk informasi selengkapnya, lihat tabel pengkodean UTF-8 dan karakter Unicode.

    Sebagai solusi untuk masalah ini, setel spark.sql.sources.fastS3PartitionDiscovery.enabled konfigurasi ke false dalam klasifikasi. spark-defaults

Rilis 5.34.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.34.0. Perubahan relatif terhadap 5.33.1.

Tanggal rilis awal: 20 Januari 2022

Tanggal rilis diperbarui: 21 Maret 2022

Fitur Baru
  • [Penskalaan terkelola] Pengoptimalan penskalaan terkelola data shuffle percikan - Untuk Amazon EMR versi 5.34.0 dan yang lebih baru, dan EMR versi 6.4.0 dan yang lebih baru, penskalaan terkelola sekarang sadar data acak Spark (data yang didistribusikan ulang Spark di seluruh partisi untuk melakukan operasi tertentu). Untuk informasi selengkapnya tentang operasi shuffle, lihat Menggunakan penskalaan terkelola EMR di Amazon EMR di Panduan Manajemen EMR Amazon dan Panduan Pemrograman Spark.

  • [Hudi] Perbaikan untuk menyederhanakan konfigurasi Hudi. Kontrol konkurensi optimis dinonaktifkan secara default.

Perubahan, Penyempurnaan, dan Masalah Terselesaikan
  • Ini adalah rilis untuk memperbaiki masalah dengan Amazon EMR Scaling ketika gagal meningkatkan/menurunkan skala cluster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Sebelumnya, restart manual pengelola sumber daya pada cluster multi-master menyebabkan daemon on-cluster Amazon EMR, seperti Zookeeper, memuat ulang semua node yang sebelumnya dinonaktifkan atau hilang dalam file znode Zookeeper. Hal ini menyebabkan batas default terlampaui dalam situasi tertentu. Amazon EMR sekarang menghapus catatan node yang dinonaktifkan atau hilang yang lebih tua dari satu jam dari file Zookeeper dan batas internal telah ditingkatkan.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar yang sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen EMR Amazon internal.

  • Peningkatan daemon EMR on-cluster untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • SPARK-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama penskalaan klaster karena Spark mengasumsikan semua node yang tersedia tidak terdaftar.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan dalam penonaktifan YARN saat cluster mencoba menaikkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster EMR Amazon dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti pengurangan skala dan pengiriman langkah gagal untuk kluster EMR Amazon yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster EMR Amazon tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi secara aman dengan HDFS/YARN yang berjalan pada node utama.

  • Zeppelin ditingkatkan ke versi 0.10.0.

  • Livy Fix - ditingkatkan ke 0.7.1

  • Peningkatan kinerja percikan - pelaksana heterogen dinonaktifkan ketika nilai konfigurasi Spark tertentu diganti di EMR 5.34.0.

  • WebHDFS dan server HTTPFS dinonaktifkan secara default. Anda dapat mengaktifkan kembali WebHDFS menggunakan konfigurasi Hadoop,. dfs.webhdfs.enabled Server HTTPFS dapat dimulai dengan menggunakan. sudo systemctl start hadoop-httpfs

Masalah yang Diketahui
  • Fitur Amazon EMR Notebooks yang digunakan dengan peniruan identitas pengguna Livy tidak berfungsi karena HTTPFS dinonaktifkan secara default. Dalam hal ini, notebook EMR tidak dapat terhubung ke cluster yang mengaktifkan peniruan Livy. Solusinya adalah memulai server HTTPFS sebelum menghubungkan notebook EMR ke cluster menggunakan. sudo systemctl start hadoop-httpfs

  • Kueri Hue tidak berfungsi di Amazon EMR 6.4.0 karena server Apache Hadoop HTTPFS dinonaktifkan secara default. Untuk menggunakan Hue di Amazon EMR 6.4.0, mulai server HTTPFS secara manual di simpul utama Amazon EMR menggunakansudo systemctl start hadoop-httpfs, atau gunakan langkah EMR Amazon.

  • Fitur Amazon EMR Notebooks yang digunakan dengan peniruan identitas pengguna Livy tidak berfungsi karena HTTPFS dinonaktifkan secara default. Dalam hal ini, notebook EMR tidak dapat terhubung ke cluster yang mengaktifkan peniruan Livy. Solusinya adalah memulai server HTTPFS sebelum menghubungkan notebook EMR ke cluster menggunakan. sudo systemctl start hadoop-httpfs

  • Saat Anda menggunakan format lokasi partisi Spark dengan Hive untuk membaca data di Amazon S3, dan Anda menjalankan Spark di Amazon EMR rilis 5.30.0 hingga 5.36.0, dan 6.2.0 hingga 6.9.0, Anda mungkin mengalami masalah yang mencegah klaster membaca data dengan benar. Ini dapat terjadi jika partisi Anda memiliki semua karakteristik berikut:

    • Dua atau lebih partisi dipindai dari tabel yang sama.

    • Setidaknya satu jalur direktori partisi adalah awalan dari setidaknya satu jalur direktori partisi lainnya, misalnya, s3://bucket/table/p=a adalah awalan dari. s3://bucket/table/p=a b

    • Karakter pertama yang mengikuti awalan di direktori partisi lain memiliki nilai UTF-8 yang kurang dari / karakter (U+002F). Misalnya, karakter spasi (U+0020) yang terjadi antara a dan b masuk s3://bucket/table/p=a b termasuk dalam kategori ini. Perhatikan bahwa ada 14 karakter non-kontrol lainnya:!"#$%&‘()*+,-. Untuk informasi selengkapnya, lihat tabel pengkodean UTF-8 dan karakter Unicode.

    Sebagai solusi untuk masalah ini, setel spark.sql.sources.fastS3PartitionDiscovery.enabled konfigurasi ke false dalam klasifikasi. spark-defaults

Rilis 6.5.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 6.5.0. Perubahan relatif terhadap 6.4.0.

Tanggal rilis awal: 20 Januari 2022

Tanggal rilis diperbarui: 21 Maret 2022

Fitur Baru
  • [Penskalaan terkelola] Pengoptimalan penskalaan terkelola data shuffle percikan - Untuk Amazon EMR versi 5.34.0 dan yang lebih baru, dan EMR versi 6.4.0 dan yang lebih baru, penskalaan terkelola sekarang sadar data acak Spark (data yang didistribusikan ulang Spark di seluruh partisi untuk melakukan operasi tertentu). Untuk informasi selengkapnya tentang operasi shuffle, lihat Menggunakan penskalaan terkelola EMR di Amazon EMR di Panduan Manajemen EMR Amazon dan Panduan Pemrograman Spark.

  • Dimulai dengan Amazon EMR 5.32.0 dan 6.5.0, ukuran pelaksana dinamis untuk Apache Spark diaktifkan secara default. Untuk mengaktifkan atau menonaktifkan fitur ini, Anda dapat menggunakan parameter spark.yarn.heterogeneousExecutors.enabled konfigurasi.

  • Support untuk format tabel terbuka Apache Iceberg untuk kumpulan data analitik yang sangat besar.

  • Support untuk ranger-trino-plugin 2.0.1-amzn-1

  • Support untuk toree 0.5.0

Perubahan, Penyempurnaan, dan Masalah Terselesaikan
  • Amazon EMR 6.5 versi rilis sekarang mendukung Apache Iceberg 0.12.0, dan menyediakan peningkatan runtime dengan Amazon EMR Runtime untuk Apache Spark, Amazon EMR Runtime untuk Presto, dan Amazon EMR Runtime untuk Apache Hive.

  • Apache Iceberg adalah format tabel terbuka untuk kumpulan data besar di Amazon S3 dan memberikan kinerja kueri cepat pada tabel besar, komit atom, penulisan bersamaan, dan evolusi tabel yang kompatibel dengan SQL. Dengan EMR 6.5, Anda dapat menggunakan Apache Spark 3.1.2 dengan format tabel Iceberg.

  • Apache Hudi 0.9 menambahkan Spark SQL DDL dan dukungan DHTML. Hal ini memungkinkan Anda untuk membuat, meningkatkan tabel Hudi hanya menggunakan pernyataan SQL. Apache Hudi 0.9 juga mencakup sisi kueri dan peningkatan kinerja sisi penulis.

  • Amazon EMR Runtime untuk Apache Hive meningkatkan kinerja Apache Hive di Amazon S3 dengan menghapus operasi ganti nama selama operasi pementasan, dan meningkatkan kinerja untuk perintah metastore check (MSCK) yang digunakan untuk memperbaiki tabel.

Masalah yang Diketahui
  • Ketika Amazon EMR merilis 6.5.0, 6.6.0, atau 6.7.0 membaca tabel Apache Phoenix melalui shell Apache Spark, terjadi karena Amazon EMR menggunakan yang NoSuchMethodError salah. Hbase.compat.version Amazon EMR rilis 6.8.0 memperbaiki masalah ini.

  • Cluster bundel Hbase dalam ketersediaan tinggi (HA) gagal menyediakan ukuran volume default dan tipe instance. Solusi untuk masalah ini adalah dengan meningkatkan ukuran volume root.

  • Untuk menggunakan tindakan Spark dengan Apache Oozie, Anda harus menambahkan konfigurasi berikut ke file Oozie Anda. workflow.xml Jika tidak, beberapa perpustakaan penting seperti Hadoop dan EMRFS akan hilang dari classpath dari pelaksana Spark yang diluncurkan Oozie.

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • Saat Anda menggunakan format lokasi partisi Spark dengan Hive untuk membaca data di Amazon S3, dan Anda menjalankan Spark di Amazon EMR rilis 5.30.0 hingga 5.36.0, dan 6.2.0 hingga 6.9.0, Anda mungkin mengalami masalah yang mencegah klaster membaca data dengan benar. Ini dapat terjadi jika partisi Anda memiliki semua karakteristik berikut:

    • Dua atau lebih partisi dipindai dari tabel yang sama.

    • Setidaknya satu jalur direktori partisi adalah awalan dari setidaknya satu jalur direktori partisi lainnya, misalnya, s3://bucket/table/p=a adalah awalan dari. s3://bucket/table/p=a b

    • Karakter pertama yang mengikuti awalan di direktori partisi lain memiliki nilai UTF-8 yang kurang dari / karakter (U+002F). Misalnya, karakter spasi (U+0020) yang terjadi antara a dan b masuk s3://bucket/table/p=a b termasuk dalam kategori ini. Perhatikan bahwa ada 14 karakter non-kontrol lainnya:!"#$%&‘()*+,-. Untuk informasi selengkapnya, lihat tabel pengkodean UTF-8 dan karakter Unicode.

    Sebagai solusi untuk masalah ini, setel spark.sql.sources.fastS3PartitionDiscovery.enabled konfigurasi ke false dalam klasifikasi. spark-defaults

Rilis 6.4.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 6.4.0. Perubahan relatif terhadap 6.3.0.

Tanggal rilis awal: 20 September 2021

Tanggal rilis diperbarui: 21 Maret 2022

Aplikasi-aplikasi yang didukung
  • AWS SDK for Javaversi 1.12.31

  • CloudWatch Wastafel versi 2.2.0

  • DynamoDB Connector versi 4.16.0

  • EMRFS versi 2.47.0

  • Amazon EMR Goodies versi 3.2.0

  • Amazon EMR Kinesis Connector versi 3.5.0

  • Server Rekam EMR Amazon versi 2.1.0

  • Amazon EMR Scripts versi 2.5.0

  • Flink versi 1.13.1

  • Ganglia versi 3.7.2

  • AWSGlue Hive Metastore Client versi 3.3.0

  • Hadoop versi 3.2.1-amzn-4

  • HBase versi 2.4.4-amzn-0

  • HB 1.1.0 ase-operator-tools

  • HCatalog versi 3.1.2-amzn-5

  • Sarang versi 3.1.2-amzn-5

  • Hudi versi 0.8.0-amzn-0

  • Hue versi 4.9.0

  • Java JDK versi Corretto-8.302.08.1 (build 1.8.0_302-b08)

  • JupyterHub versi 1.4.1

  • Livy versi 0.7.1-inkubasi

  • MxNet versi 1.8.0

  • Oozie versi 5.2.1

  • Phoenix versi 5.1.2

  • Pig versi 0.17.0

  • Presto versi 0.254.1-amzn-0

  • Trino versi 359

  • Apache Ranger KMS (enkripsi transparan multi-utama) versi 2.0.0

  • ranger-plugin 2.0.1-amzn-0

  • ranger-s3-plugin 1.2.0

  • SageMaker Spark SDK versi 1.4.1

  • Scala versi 2.12.10 (OpenJDK 64-Bit Server VM, Java 1.8.0_282)

  • Spark versi 3.1.2-amzn-0

  • spark-rapids 0.4.1

  • Sqoop versi 1.4.7

  • TensorFlow versi 2.4.1

  • tez versi 0.9.2

  • Zeppelin versi 0.9.0

  • Zookeeper versi 3.5.7

  • Konektor dan driver: DynamoDB Connector 4.16.0

Fitur baru
  • [Penskalaan terkelola] Pengoptimalan penskalaan terkelola data shuffle percikan - Untuk Amazon EMR versi 5.34.0 dan yang lebih baru, dan EMR versi 6.4.0 dan yang lebih baru, penskalaan terkelola sekarang sadar data acak Spark (data yang didistribusikan ulang Spark di seluruh partisi untuk melakukan operasi tertentu). Untuk informasi selengkapnya tentang operasi shuffle, lihat Menggunakan penskalaan terkelola EMR di Amazon EMR di Panduan Manajemen EMR Amazon dan Panduan Pemrograman Spark.

  • Pada kluster EMR Amazon yang mendukung Apache Ranger, Anda dapat menggunakan Apache Spark SQL untuk menyisipkan data ke dalam atau memperbarui tabel metastore Apache Hive menggunakan,, dan. INSERT INTO INSERT OVERWRITE ALTER TABLE Saat menggunakan ALTER TABLE dengan Spark SQL, lokasi partisi harus menjadi direktori anak dari lokasi tabel. Amazon EMR saat ini tidak mendukung penyisipan data ke dalam partisi di mana lokasi partisi berbeda dari lokasi tabel.

  • PrestosQL telah diubah namanya menjadi Trino.

  • Hive: Eksekusi kueri SELECT sederhana dengan klausa LIMIT dipercepat dengan menghentikan eksekusi kueri segera setelah jumlah catatan yang disebutkan dalam klausa LIMIT diambil. Kueri SELECT sederhana adalah kueri yang tidak memiliki GROUP BY/ORDER by klausa atau kueri yang tidak memiliki tahap peredam. Sebagai contoh, SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>.

Kontrol Konkurensi Hudi
  • Hudi sekarang mendukung Optimistic Concurrency Control (OCC), yang dapat dimanfaatkan dengan operasi tulis seperti UPSERT dan INSERT untuk memungkinkan perubahan dari beberapa penulis ke tabel Hudi yang sama. Ini adalah OCC tingkat file, jadi dua komit (atau penulis) dapat menulis ke tabel yang sama, jika perubahannya tidak bertentangan. Untuk informasi lebih lanjut, lihat kontrol konkurensi Hudi.

  • Cluster EMR Amazon telah menginstal Zookeeper, yang dapat dimanfaatkan sebagai penyedia kunci untuk OCC. Untuk mempermudah penggunaan fitur ini, kluster EMR Amazon memiliki properti berikut yang telah dikonfigurasi sebelumnya:

    hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<EMR Zookeeper URL> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port> hoodie.write.lock.zookeeper.base_path=/hudi

    Untuk mengaktifkan OCC, Anda perlu mengonfigurasi properti berikut baik dengan opsi pekerjaan Hudi atau di tingkat cluster menggunakan API konfigurasi EMR Amazon:

    hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=<Key to uniquely identify the Hudi table> (Table Name is a good option)
Pemantauan Hudi: CloudWatch Integrasi Amazon untuk melaporkan Metrik Hudi
  • Amazon EMR mendukung penerbitan Hudi Metrics ke Amazon. CloudWatch Ini diaktifkan dengan mengatur konfigurasi yang diperlukan berikut:

    hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
  • Berikut ini adalah konfigurasi Hudi opsional yang dapat Anda ubah:

    Pengaturan Deskripsi Nilai

    hoodie.metrics.cloudwatch.report.period.seconds

    Frekuensi (dalam detik) untuk melaporkan metrik ke Amazon CloudWatch

    Nilai default adalah 60-an, yang baik-baik saja untuk resolusi default satu menit yang ditawarkan oleh Amazon CloudWatch

    hoodie.metrics.cloudwatch.metric.prefix

    Awalan yang akan ditambahkan ke setiap nama metrik

    Nilai default kosong (tidak ada awalan)

    hoodie.metrics.cloudwatch.namespace

    CloudWatch Namespace Amazon di mana metrik diterbitkan

    Nilai default adalah Hudi

    hoodie.metrics.cloudwatch. maxDatumsPerPermintaan

    Jumlah maksimum datum yang akan dimasukkan dalam satu permintaan ke Amazon CloudWatch

    Nilai default adalah 20, yang sama dengan CloudWatch default Amazon

Dukungan dan peningkatan konfigurasi Amazon EMR Hudi
  • Pelanggan sekarang dapat memanfaatkan API Konfigurasi EMR dan fitur Konfigurasi Ulang untuk mengonfigurasi konfigurasi Hudi di tingkat cluster. Dukungan konfigurasi berbasis file baru telah diperkenalkan melalui /etc/hudi/conf/hudi-defaults.conf di sepanjang baris aplikasi lain seperti Spark, Hive dll. EMR mengonfigurasi beberapa default untuk meningkatkan pengalaman pengguna:

    hoodie.datasource.hive_sync.jdbcurl dikonfigurasi ke URL server Hive cluster dan tidak perlu lagi ditentukan. Ini sangat berguna saat menjalankan pekerjaan dalam mode cluster Spark, di mana Anda sebelumnya harus menentukan IP master EMR Amazon.

    — Konfigurasi khusus HBase, yang berguna untuk menggunakan indeks HBase dengan Hudi.

    — Konfigurasi khusus penyedia kunci Zookeeper, seperti yang dibahas di bawah kontrol konkurensi, yang membuatnya lebih mudah untuk menggunakan Optimistic Concurrency Concurrency Control (OCC).

  • Perubahan tambahan telah diperkenalkan untuk mengurangi jumlah konfigurasi yang perlu Anda lewati, dan untuk menyimpulkan secara otomatis jika memungkinkan:

    partitionBy Kata kunci dapat digunakan untuk menentukan kolom partisi.

    — Saat mengaktifkan Hive Sync, tidak lagi wajib untuk lulus. HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY Nilai-nilai tersebut dapat disimpulkan dari nama tabel Hudi dan bidang partisi.

    KEYGENERATOR_CLASS_OPT_KEY tidak wajib untuk lulus, dan dapat disimpulkan dari kasus yang lebih sederhana dari SimpleKeyGenerator danComplexKeyGenerator.

Peringatan Hudi
  • Hudi tidak mendukung eksekusi vektor di Hive for Merge on Read (MoR) dan tabel Bootstrap. Misalnya, count(*) gagal dengan tabel realtime Hudi ketika hive.vectorized.execution.enabled disetel ke true. Sebagai solusinya, Anda dapat menonaktifkan pembacaan vektor dengan menyetel ke. hive.vectorized.execution.enabled false

  • Dukungan multi-penulis tidak kompatibel dengan fitur bootstrap Hudi.

  • Flink Streamer dan Flink SQL adalah fitur eksperimental dalam rilis ini. Fitur-fitur ini tidak disarankan untuk digunakan dalam penyebaran produksi.

Perubahan, penyempurnaan, dan masalah yang diselesaikan

Ini adalah rilis untuk memperbaiki masalah dengan Amazon EMR Scaling ketika gagal meningkatkan/menurunkan skala cluster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Sebelumnya, restart manual pengelola sumber daya pada cluster multi-master menyebabkan daemon on-cluster Amazon EMR, seperti Zookeeper, memuat ulang semua node yang sebelumnya dinonaktifkan atau hilang dalam file znode Zookeeper. Hal ini menyebabkan batas default terlampaui dalam situasi tertentu. Amazon EMR sekarang menghapus catatan node yang dinonaktifkan atau hilang yang lebih tua dari satu jam dari file Zookeeper dan batas internal telah ditingkatkan.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar yang sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen EMR Amazon internal.

  • Peningkatan daemon EMR on-cluster untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • SPARK-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama penskalaan klaster karena Spark mengasumsikan semua node yang tersedia tidak terdaftar.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan dalam penonaktifan YARN saat cluster mencoba menaikkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster EMR Amazon dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti pengurangan skala dan pengiriman langkah gagal untuk kluster EMR Amazon yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster EMR Amazon tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi secara aman dengan HDFS/YARN yang berjalan pada node utama.

  • Mengkonfigurasi cluster untuk memperbaiki masalah kinerja Apache YARN Timeline Server versi 1 dan 1.5

    Apache YARN Timeline Server versi 1 dan 1.5 dapat menyebabkan masalah kinerja dengan cluster EMR yang sangat aktif dan besar, terutama denganyarn.resourcemanager.system-metrics-publisher.enabled=true, yang merupakan pengaturan default di Amazon EMR. YARN Timeline Server v2 open source memecahkan masalah kinerja yang terkait dengan skalabilitas YARN Timeline Server.

    Solusi lain untuk masalah ini meliputi:

    • Mengkonfigurasi yarn.resourcemanager. system-metrics-publisher.enabled=false di yarn-site.xml.

    • Mengaktifkan perbaikan untuk masalah ini saat membuat cluster, seperti yang dijelaskan di bawah ini.

    Rilis EMR Amazon berikut berisi perbaikan untuk masalah kinerja Server Timeline YARN ini.

    EMR 5.30.2, 5.31.1, 5.32.1, 5.33.1, 5.34.x, 6.0.1, 6.1.1, 6.2.1, 6.3.1, 6.4.x

    Untuk mengaktifkan perbaikan pada salah satu rilis EMR Amazon yang ditentukan di atas, setel properti ini ke true dalam file JSON konfigurasi yang diteruskan menggunakan parameter perintah:. aws emr create-cluster --configurations file://./configurations.json Atau aktifkan perbaikan menggunakan UI konsol konfigurasi ulang.

    Contoh isi file configurations.json:

    [ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
  • WebHDFS dan server HTTPFS dinonaktifkan secara default. Anda dapat mengaktifkan kembali WebHDFS menggunakan konfigurasi Hadoop,. dfs.webhdfs.enabled Server HTTPFS dapat dimulai dengan menggunakan. sudo systemctl start hadoop-httpfs

  • HTTPS sekarang diaktifkan secara default untuk repositori Amazon Linux. Jika Anda menggunakan kebijakan Amazon S3 VPCE untuk membatasi akses ke bucket tertentu, Anda harus menambahkan ARN bucket Amazon Linux baru arn:aws:s3:::amazonlinux-2-repos-$region/* ke kebijakan Anda (ganti $region dengan wilayah tempat titik akhir berada). Untuk informasi lebih lanjut, lihat topik ini di forum AWS diskusi. Pengumuman: Amazon Linux 2 sekarang mendukung kemampuan untuk menggunakan HTTPS saat menghubungkan ke repositori paket.

  • Hive: Kinerja kueri tulis ditingkatkan dengan mengaktifkan penggunaan direktori awal pada HDFS untuk pekerjaan terakhir. Data sementara untuk pekerjaan akhir ditulis ke HDFS alih-alih Amazon S3 dan kinerjanya ditingkatkan karena data dipindahkan dari HDFS ke lokasi tabel akhir (Amazon S3) alih-alih di antara perangkat Amazon S3.

  • Hive: Peningkatan waktu kompilasi kueri hingga 2.5x dengan Glue metastore Partition Pruning.

  • Secara default, ketika UDF bawaan diteruskan oleh Hive ke Server Metastore Hive, hanya sebagian dari UDF bawaan yang diteruskan ke Glue Metastore karena Glue hanya mendukung operator ekspresi terbatas. Jika Anda mengaturhive.glue.partition.pruning.client=true, maka semua pemangkasan partisi terjadi di sisi klien. Jika Anda mengaturhive.glue.partition.pruning.server=true, maka semua pemangkasan partisi terjadi di sisi server.

Masalah yang diketahui
  • Kueri Hue tidak berfungsi di Amazon EMR 6.4.0 karena server Apache Hadoop HTTPFS dinonaktifkan secara default. Untuk menggunakan Hue di Amazon EMR 6.4.0, mulai server HTTPFS secara manual di simpul utama Amazon EMR menggunakansudo systemctl start hadoop-httpfs, atau gunakan langkah EMR Amazon.

  • Fitur Amazon EMR Notebooks yang digunakan dengan peniruan identitas pengguna Livy tidak berfungsi karena HTTPFS dinonaktifkan secara default. Dalam hal ini, notebook EMR tidak dapat terhubung ke cluster yang mengaktifkan peniruan Livy. Solusinya adalah memulai server HTTPFS sebelum menghubungkan notebook EMR ke cluster menggunakan. sudo systemctl start hadoop-httpfs

  • Di Amazon EMR versi 6.4.0, Phoenix tidak mendukung komponen konektor Phoenix.

  • Untuk menggunakan tindakan Spark dengan Apache Oozie, Anda harus menambahkan konfigurasi berikut ke file Oozie Anda. workflow.xml Jika tidak, beberapa perpustakaan penting seperti Hadoop dan EMRFS akan hilang dari classpath dari pelaksana Spark yang diluncurkan Oozie.

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • Saat Anda menggunakan format lokasi partisi Spark dengan Hive untuk membaca data di Amazon S3, dan Anda menjalankan Spark di Amazon EMR rilis 5.30.0 hingga 5.36.0, dan 6.2.0 hingga 6.9.0, Anda mungkin mengalami masalah yang mencegah klaster membaca data dengan benar. Ini dapat terjadi jika partisi Anda memiliki semua karakteristik berikut:

    • Dua atau lebih partisi dipindai dari tabel yang sama.

    • Setidaknya satu jalur direktori partisi adalah awalan dari setidaknya satu jalur direktori partisi lainnya, misalnya, s3://bucket/table/p=a adalah awalan dari. s3://bucket/table/p=a b

    • Karakter pertama yang mengikuti awalan di direktori partisi lain memiliki nilai UTF-8 yang kurang dari / karakter (U+002F). Misalnya, karakter spasi (U+0020) yang terjadi antara a dan b masuk s3://bucket/table/p=a b termasuk dalam kategori ini. Perhatikan bahwa ada 14 karakter non-kontrol lainnya:!"#$%&‘()*+,-. Untuk informasi selengkapnya, lihat tabel pengkodean UTF-8 dan karakter Unicode.

    Sebagai solusi untuk masalah ini, setel spark.sql.sources.fastS3PartitionDiscovery.enabled konfigurasi ke false dalam klasifikasi. spark-defaults

Rilis 5.32.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.32.0. Perubahan bersifat relatif terhadap 5.31.0.

Tanggal rilis awal: 8 Januari 2021

Upgrade
  • Konektor Amazon Glue telah di-upgrade ke versi 1.14.0

  • Upgrade Amazon SageMaker Spark SDK ke versi 1.4.1

  • Diupgrade AWS SDK for Java ke versi 1.11.890

  • EMR DynamoDB Connector telah di-upgrade ke versi 4.16.0

  • EMRFS telah di-upgrade ke versi 2.45.0

  • EMR Log Analytics Metrics telah di-upgrade ke versi 1.18.0

  • Klien MetricsAndEventsApiGateway EMR yang ditingkatkan ke versi 1.5.0

  • EMR Record Server telah di-upgrade ke versi 1.8.0

  • EMR S3 Dist CP telah di-upgrade ke versi 2.17.0

  • EMR Secret Agent telah di-upgrade ke versi 1.7.0

  • Flink telah di-upgrade ke versi 1.11.2

  • Hadoop telah di-upgrade ke versi 2.10.1-amzn-0

  • Hive telah di-upgrade ke versi 2.3.7-amzn-3

  • Hue telah di-upgrade ke versi 4.8.0

  • Mxnet telah di-upgrade ke versi 1.7.0

  • OpenCV telah di-upgrade ke versi 4.4.0

  • Presto telah di-upgrade ke versi 0.240.1-amzn-0

  • Spark telah di-upgrade ke versi 2.4.7-amzn-0

  • Upgrade TensorFlow ke versi 2.3.1

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Ini adalah rilis untuk memperbaiki masalah dengan Amazon EMR Scaling ketika gagal meningkatkan/menurunkan skala cluster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar yang sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen EMR Amazon internal.

  • Peningkatan daemon EMR on-cluster untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • SPARK-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama penskalaan klaster karena Spark mengasumsikan semua node yang tersedia tidak terdaftar.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan dalam penonaktifan YARN saat cluster mencoba menaikkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster EMR Amazon dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti pengurangan skala dan pengiriman langkah gagal untuk kluster EMR Amazon yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster EMR Amazon tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi secara aman dengan HDFS/YARN yang berjalan pada node utama.

  • Rilis Amazon EMR yang lebih baru memperbaiki masalah dengan batas “Max open files” yang lebih rendah pada AL2 yang lebih lama di Amazon EMR. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru sekarang menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi.

  • Versi komponen yang telah ditingkatkan.

  • Untuk daftar versi komponen, lihat Tentang Rilis Amazon EMR dalam panduan ini.

Fitur baru
  • Dimulai dengan Amazon EMR 5.32.0 dan 6.5.0, ukuran pelaksana dinamis untuk Apache Spark diaktifkan secara default. Untuk mengaktifkan atau menonaktifkan fitur ini, Anda dapat menggunakan parameter spark.yarn.heterogeneousExecutors.enabled konfigurasi.

  • Status support Instance Metadata Service (IMDS) V2: Amazon EMR 5.23.1, 5.27.1 dan 5.32 atau komponen yang lebih baru menggunakan IMDSv2 untuk semua panggilan IMDS. Untuk panggilan IMDS dalam kode aplikasi Anda, Anda dapat menggunakan IMDSv1 dan IMDSv2, atau mengkonfigurasi IMDS untuk hanya menggunakan IMDSv2 untuk keamanan tambahan. Untuk rilis EMR seri 5.x lainnya, menonaktifkan IMDSv1 akan menyebabkan gagal mulai klaster.

  • Dimulai dengan Amazon EMR 5.32.0, Anda dapat meluncurkan sebuah klaster yang terintegrasi secara asli dengan Apache Ranger. Apache Ranger adalah kerangka kerja sumber terbuka untuk mengaktifkan, memantau, dan mengelola keamanan data komprehensif di seluruh platform Hadoop. Untuk informasi selengkapnya, lihat Apache Ranger. Dengan integrasi asli, Anda dapat membawa Apache Ranger Anda sendiri untuk memberlakukan kendali akses data halus di Amazon EMR. Lihat Mengintegrasikan Amazon EMR dengan Apache Ranger di Panduan Rilis Amazon EMR.

  • Amazon EMR Rilis 5.32.0 mendukung Amazon EMR di EKS. Untuk rincian lebih lanjut tentang memulai dengan EMR pada EKS, lihat Apa itu Amazon EMR di EKS.

  • Amazon EMR Rilis 5.32.0 mendukung Amazon EMR Studio (Pratinjau). Untuk detail lebih lanjut tentang memulai EMR Studio, lihat Amazon EMR Studio (Pratinjau).

  • Kebijakan terkelola yang tercakup: Untuk menyelaraskan dengan praktik terbaik AWS, Amazon EMR telah memperkenalkan kebijakan terkelola tercakup default EMR v2 sebagai pengganti kebijakan yang tidak lagi digunakan. Lihat Kebijakan Terkelola Amazon EMR.

Masalah yang diketahui
  • Untuk Amazon EMR 6.3.0 dan 6.2.0 kluster subnet pribadi, Anda tidak dapat mengakses UI web Ganglia. Anda akan mendapatkan pesan kesalahan "akses ditolak (403)". UI web lainnya, seperti Spark, Hue, Zeppelin JupyterHub, Livy, dan Tez bekerja secara normal. Akses UI web Ganglia pada klaster subnet publik juga bekerja secara normal. Untuk mengatasi masalah ini, mulai ulang layanan httpd pada node utama dengansudo systemctl restart httpd. Masalah ini telah diperbaiki di Amazon EMR 6.4.0.

  • Turunkan batas “Max open files” pada AL2 yang lebih lama [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit yang lebih rendah untuk “File terbuka maksimum” ketika kluster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah menyebabkan kesalahan “Terlalu banyak file terbuka” saat mengirimkan pekerjaan Spark. Dalam rilis yang terkena dampak, AMI default Amazon EMR memiliki pengaturan ulimit default 4096 untuk “File terbuka maksimum,” yang lebih rendah dari batas file 65536 di AMI Amazon Linux 2 terbaruAmazon. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi EMR Amazon yang lebih lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit pengontrol instans ke maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Mulai ulang InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Tetapkan ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • penting

    Cluster EMR yang menjalankan Amazon Linux atau Amazon Linux 2 Amazon Machine Images (AMI) menggunakan perilaku default Amazon Linux, dan tidak secara otomatis mengunduh dan menginstal pembaruan kernel penting dan kritis yang memerlukan reboot. Ini adalah perilaku yang sama dengan instans Amazon EC2 lainnya yang menjalankan AMI Amazon Linux default. Jika pembaruan perangkat lunak Amazon Linux baru yang memerlukan reboot (seperti pembaruan kernel, NVIDIA, dan CUDA) tersedia setelah rilis EMR Amazon tersedia, instance cluster EMR yang menjalankan AMI default tidak secara otomatis mengunduh dan menginstal pembaruan tersebut. Untuk mendapatkan pembaruan kernel, Anda dapat menyesuaikan Amazon EMR AMI menjadi gunakan Amazon Linux AMI terbaru.

  • Dukungan konsol untuk membuat konfigurasi keamanan yang menentukan opsi integrasi AWS Ranger saat ini tidak didukung di GovCloud Wilayah. Konfigurasi keamanan dapat dilakukan dengan menggunakan CLI. Lihat Membuat Konfigurasi Keamanan EMR di Panduan Pengelolaan Amazon EMR.

  • Saat AtRestEncryption enkripsi HDFS diaktifkan pada klaster yang menggunakan Amazon EMR 5.31.0 atau 5.32.0, kueri Hive menghasilkan pengecualian runtime berikut.

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
  • Saat Anda menggunakan format lokasi partisi Spark dengan Hive untuk membaca data di Amazon S3, dan Anda menjalankan Spark di Amazon EMR rilis 5.30.0 hingga 5.36.0, dan 6.2.0 hingga 6.9.0, Anda mungkin mengalami masalah yang mencegah klaster membaca data dengan benar. Ini dapat terjadi jika partisi Anda memiliki semua karakteristik berikut:

    • Dua atau lebih partisi dipindai dari tabel yang sama.

    • Setidaknya satu jalur direktori partisi adalah awalan dari setidaknya satu jalur direktori partisi lainnya, misalnya, s3://bucket/table/p=a adalah awalan dari. s3://bucket/table/p=a b

    • Karakter pertama yang mengikuti awalan di direktori partisi lain memiliki nilai UTF-8 yang kurang dari / karakter (U+002F). Misalnya, karakter spasi (U+0020) yang terjadi antara a dan b masuk s3://bucket/table/p=a b termasuk dalam kategori ini. Perhatikan bahwa ada 14 karakter non-kontrol lainnya:!"#$%&‘()*+,-. Untuk informasi selengkapnya, lihat tabel pengkodean UTF-8 dan karakter Unicode.

    Sebagai solusi untuk masalah ini, setel spark.sql.sources.fastS3PartitionDiscovery.enabled konfigurasi ke false dalam klasifikasi. spark-defaults

Rilis 6.2.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 6.2.0. Perubahan bersifat relatif terhadap versi 6.1.0.

Tanggal rilis awal: 09 Desember 2020

Tanggal terakhir dimutakhirkan: Okt 04, 2021

Aplikasi-aplikasi yang didukung
  • AWS SDK for Java versi 1.11.828

  • emr-record-server versi 1.7.0

  • Flink versi 1.11.2

  • Ganglia versi 3.7.2

  • Hadoop versi 3.2.1-amzn-1

  • HBase versi 2.2.6-amzn-0

  • HB 1.0.0 ase-operator-tools

  • HCatalog versi 3.1.2-amzn-0

  • Hive versi 3.1.2-amzn-3

  • Hudi versi 0.6.0-amzn-1

  • Hue versi 4.8.0

  • JupyterHub versi 1.1.0

  • Livy versi 0.7.0

  • MXNet versi 1.7.0

  • Oozie versi 5.2.0

  • Phoenix versi 5.0.0

  • Pig versi 0.17.0

  • Presto versi 0.238.3-amzn-1

  • PrestoSQL versi 343

  • Spark versi 3.0.1-amzn-0

  • spark-rapids versi 0.2.0

  • TensorFlow versi 2.3.1

  • Zeppelin versi 0.9.0-preview1

  • Zookeeper versi 3.4.14

  • Konektor dan driver: DynamoDB Connector 4.16.0

Fitur baru
  • HBase: Menghapus perubahan nama dalam fase melakukan commit dan menambahkan pelacakan HFile persisten. Lihat Pelacakan HFile Persisten di Panduan Rilis Amazon EMR.

  • HBase: Melakukan backporting Membuat konfigurasi yang memaksa untuk melakukan caching pada blok pada pemadatan.

  • PrestoDB: Perbaikan Pemangkasan Partisi Dinamis. Join Reorder berbasis aturan bekerja pada data non-partisi.

  • Kebijakan terkelola yang tercakup: Untuk menyelaraskan dengan praktik terbaik AWS, Amazon EMR telah memperkenalkan kebijakan terkelola tercakup default EMR v2 sebagai pengganti kebijakan yang tidak lagi digunakan. Lihat Kebijakan Terkelola Amazon EMR.

  • Status dukungan Instance Metadata Service (IMDS) V2: Untuk Amazon EMR 6.2 atau yang lebih baru, komponen Amazon EMR menggunakan IMDSv2 untuk semua panggilan IMDS. Untuk panggilan IMDS dalam kode aplikasi Anda, Anda dapat menggunakan IMDSv1 dan IMDSv2, atau mengkonfigurasi IMDS untuk hanya menggunakan IMDSv2 untuk keamanan tambahan. Jika Anda menonaktifkan IMDSv1 di Amazon EMR rilis 6.x sebelumnya, maka hal itu akan menyebabkan kegagalan memulai klaster.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Ini adalah rilis untuk memperbaiki masalah dengan Amazon EMR Scaling ketika gagal meningkatkan/menurunkan skala cluster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar yang sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen EMR Amazon internal.

  • Peningkatan daemon EMR on-cluster untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • SPARK-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama penskalaan klaster karena Spark mengasumsikan semua node yang tersedia tidak terdaftar.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan dalam penonaktifan YARN saat cluster mencoba menaikkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster EMR Amazon dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti pengurangan skala dan pengiriman langkah gagal untuk kluster EMR Amazon yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster EMR Amazon tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi secara aman dengan HDFS/YARN yang berjalan pada node utama.

  • Rilis Amazon EMR yang lebih baru memperbaiki masalah dengan batas “Max open files” yang lebih rendah pada AL2 yang lebih lama di Amazon EMR. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru sekarang menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi.

  • Spark: Perbaikan performa dalam waktu aktif Spark.

Masalah yang diketahui
  • Amazon EMR 6.2 memiliki izin yang salah disetel pada file libinstance-controller-java /etc/cron.d/ di EMR 6.2.0. Izin pada file adalah 645 (-rw-r--r-x), padahal seharusnya 644 (-rw-r--r--). Akibatnya, Amazon EMR versi 6.2 tidak mencatat log status instance, dan direktori /emr/instance-logs kosong. Masalah ini diperbaiki di Amazon EMR 6.3.0 dan yang lebih baru.

    Untuk mengatasi masalah ini, jalankan skrip berikut sebagai tindakan bootstrap saat peluncuran cluster.

    #!/bin/bash sudo chmod 644 /etc/cron.d/libinstance-controller-java
  • Untuk Amazon EMR 6.2.0 dan 6.3.0 kluster subnet pribadi, Anda tidak dapat mengakses UI web Ganglia. Anda akan mendapatkan pesan kesalahan "akses ditolak (403)". UI web lainnya, seperti Spark, Hue, Zeppelin JupyterHub, Livy, dan Tez bekerja secara normal. Akses UI web Ganglia pada klaster subnet publik juga bekerja secara normal. Untuk mengatasi masalah ini, mulai ulang layanan httpd pada node utama dengansudo systemctl restart httpd. Masalah ini telah diperbaiki di Amazon EMR 6.4.0.

  • Ada masalah pada Amazon EMR 6.2.0 di mana httpd terus-menerus gagal, sehingga menyebabkan Ganglia tidak tersedia. Anda mendapatkan pesan kesalahan "tidak dapat menyambung ke server". Untuk memperbaiki cluster yang sudah berjalan dengan masalah ini, SSH ke node utama cluster dan tambahkan baris Listen 80 ke file yang httpd.conf terletak di/etc/httpd/conf/httpd.conf. Masalah ini telah diperbaiki pada Amazon EMR 6.3.0.

  • HTTPD gagal pada klaster EMR 6.2.0 ketika Anda menggunakan konfigurasi keamanan. Hal ini membuat antarmuka pengguna aplikasi web Ganglia tidak tersedia. Untuk mengakses antarmuka pengguna aplikasi web Ganglia, tambahkan Listen 80 ke /etc/httpd/conf/httpd.conf file pada node utama cluster Anda. Untuk informasi tentang menghubungkan ke cluster Anda, lihat Connect to the Primary Node Using SSH.

    EMR Notebooks juga gagal untuk membuat sambungan dengan klaster EMR 6.2.0 bila Anda menggunakan konfigurasi keamanan. Notebook tersebut akan gagal untuk membuat daftar kernel dan mengirimkan tugas Spark. Kami merekomendasikan agar Anda menggunakan EMR Notebooks dengan Amazon EMR versi lainnya sebagai gantinya.

  • Turunkan batas “Max open files” pada AL2 yang lebih lama [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit yang lebih rendah untuk “File terbuka maksimum” ketika kluster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah menyebabkan kesalahan “Terlalu banyak file terbuka” saat mengirimkan pekerjaan Spark. Dalam rilis yang terkena dampak, AMI default Amazon EMR memiliki pengaturan ulimit default 4096 untuk “File terbuka maksimum,” yang lebih rendah dari batas file 65536 di AMI Amazon Linux 2 terbaruAmazon. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi EMR Amazon yang lebih lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit pengontrol instans ke maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Mulai ulang InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Tetapkan ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • penting

    Amazon EMR 6.1.0 dan 6.2.0 mempunyai masalah performa yang secara kritis dapat mempengaruhi semua operasi insert, upsert, dan delete Hudi. Jika Anda berencana untuk menggunakan Hudi dengan Amazon EMR 6.1.0 atau 6.2.0, maka Anda harus menghubungi dukungan AWS untuk mendapatkan Hudi RPM yang telah di-patch.

  • penting

    Cluster EMR yang menjalankan Amazon Linux atau Amazon Linux 2 Amazon Machine Images (AMI) menggunakan perilaku default Amazon Linux, dan tidak secara otomatis mengunduh dan menginstal pembaruan kernel penting dan kritis yang memerlukan reboot. Ini adalah perilaku yang sama dengan instans Amazon EC2 lainnya yang menjalankan AMI Amazon Linux default. Jika pembaruan perangkat lunak Amazon Linux baru yang memerlukan reboot (seperti pembaruan kernel, NVIDIA, dan CUDA) tersedia setelah rilis EMR Amazon tersedia, instance cluster EMR yang menjalankan AMI default tidak secara otomatis mengunduh dan menginstal pembaruan tersebut. Untuk mendapatkan pembaruan kernel, Anda dapat menyesuaikan Amazon EMR AMI menjadi gunakan Amazon Linux AMI terbaru.

  • Artefak Amazon EMR 6.2.0 Maven tidak dipublikasikan. Ia akan diterbitkan dengan rilis Amazon EMR yang akan datang.

  • Pelacakan HFile persisten menggunakan tabel sistem penyimpanan file HBase tidak mendukung fitur replikasi wilayah HBase. Untuk informasi selengkapnya tentang replikasi wilayah HBase, lihat Baca Dengan Ketersediaan Tinggi yang Konsisten Timeline.

  • Perbedaan versi bucket Amazon EMR 6.x dan EMR 5.x Hive

    EMR 5.x menggunakan OOS Apache Hive 2, sedangkan di EMR 6.x menggunakan OOS Apache Hive 3. Hive2 sumber terbuka menggunakan Bucketing versi 1, sementara Hive3 sumber terbuka menggunakan Bucketing versi 2. Perbedaan versi bucket antara Hive 2 (EMR 5.x) dan Hive 3 (EMR 6.x) berarti pem-bucket-an Hive melakukan hashing fungsi yang berbeda. Lihat contoh di bawah ini.

    Tabel berikut adalah contoh yang dibuat di EMR 6.x dan EMR 5.x, berurutan.

    -- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';

    Memasukkan data yang sama di EMR 6.x dan EMR 5.x.

    INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');

    Memeriksa lokasi S3, menunjukkan nama file pem-bucket-an yang berbeda, karena fungsi hashing yang berbeda antara EMR 6.x (Hive 3) dan EMR 5.x (Hive 2).

    [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0

    Anda juga dapat melihat perbedaan versi dengan menjalankan perintah berikut di Hive CLI di EMR 6.x. Perhatikan bahwa ia menghasilkan pem-bucket-an versi 2.

    hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...
  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus menjalankan kembali perintah di atas setelah tiket Kerberos berakhir.

  • Saat Anda menggunakan format lokasi partisi Spark dengan Hive untuk membaca data di Amazon S3, dan Anda menjalankan Spark di Amazon EMR rilis 5.30.0 hingga 5.36.0, dan 6.2.0 hingga 6.9.0, Anda mungkin mengalami masalah yang mencegah klaster membaca data dengan benar. Ini dapat terjadi jika partisi Anda memiliki semua karakteristik berikut:

    • Dua atau lebih partisi dipindai dari tabel yang sama.

    • Setidaknya satu jalur direktori partisi adalah awalan dari setidaknya satu jalur direktori partisi lainnya, misalnya, s3://bucket/table/p=a adalah awalan dari. s3://bucket/table/p=a b

    • Karakter pertama yang mengikuti awalan di direktori partisi lain memiliki nilai UTF-8 yang kurang dari / karakter (U+002F). Misalnya, karakter spasi (U+0020) yang terjadi antara a dan b masuk s3://bucket/table/p=a b termasuk dalam kategori ini. Perhatikan bahwa ada 14 karakter non-kontrol lainnya:!"#$%&‘()*+,-. Untuk informasi selengkapnya, lihat tabel pengkodean UTF-8 dan karakter Unicode.

    Sebagai solusi untuk masalah ini, setel spark.sql.sources.fastS3PartitionDiscovery.enabled konfigurasi ke false dalam klasifikasi. spark-defaults

Rilis 5.31.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.31.0. Perubahan bersifat relatif terhadap 5.30.1.

Tanggal rilis awal: 9 Oktober 2020

Tanggal terakhir diperbarui: 15 Oktober 2020

Upgrade
  • Konektor Amazon Glue telah di-upgrade ke versi 1.13.0

  • Upgrade Amazon SageMaker Spark SDK ke versi 1.4.0

  • Konektor Amazon Kinesis telah di-upgrade ke versi 3.5.9

  • Diupgrade AWS SDK for Java ke versi 1.11.852

  • Bigtop-tomcat telah di-upgrade ke versi 8.5.56

  • EMR FS telah di-upgrade ke versi 2.43.0

  • Klien MetricsAndEventsApiGateway EMR yang ditingkatkan ke versi 1.4.0

  • EMR S3 Dist CP telah di-upgrade ke versi 2.15.0

  • EMR S3 Select telah di-upgrade ke versi 1.6.0

  • Flink telah di-upgrade ke versi 1.11.0

  • Hadoop telah di-upgrade ke versi 2.10.0

  • Hive telah di-upgrade ke versi 2.3.7

  • Hudi telah di-upgrade ke versi 0.6.0

  • Hue telah di-upgrade ke versi 4.7.1

  • Upgrade JupyterHub ke versi 1.1.0

  • Mxnet telah di-upgrade ke versi 1.6.0

  • OpenCV telah di-upgrade ke versi 4.3.0

  • Presto telah di-upgrade ke versi 0.238.3

  • Upgrade TensorFlow ke versi 2.1.0

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Ini adalah rilis untuk memperbaiki masalah dengan Amazon EMR Scaling ketika gagal meningkatkan/menurunkan skala cluster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar yang sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen EMR Amazon internal.

  • Peningkatan daemon EMR on-cluster untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • SPARK-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama penskalaan klaster karena Spark mengasumsikan semua node yang tersedia tidak terdaftar.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan dalam penonaktifan YARN saat cluster mencoba menaikkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster EMR Amazon dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti pengurangan skala dan pengiriman langkah gagal untuk kluster EMR Amazon yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster EMR Amazon tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi secara aman dengan HDFS/YARN yang berjalan pada node utama.

  • Rilis Amazon EMR yang lebih baru memperbaiki masalah dengan batas “Max open files” yang lebih rendah pada AL2 yang lebih lama di Amazon EMR. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru sekarang menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi.

  • Kolom statistik Hive didukung untuk Amazon EMR versi 5.31.0 dan versi setelahnya.

  • Versi komponen yang telah ditingkatkan.

  • Support EMRFS S3EC V2 di Amazon EMR 5.31.0. Di S3 Java SDK rilis 1.11.837 dan versi setelahnya, klien enkripsi Versi 2 (S3EC V2) telah diperkenalkan dengan berbagai peningkatan keamanan. Untuk informasi lebih lanjut, lihat hal berikut:

    Enkripsi Klien V1 masih tersedia di SDK untuk kompatibilitas mundur.

Fitur baru
  • Turunkan batas “Max open files” pada AL2 yang lebih lama [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit yang lebih rendah untuk “File terbuka maksimum” ketika kluster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah menyebabkan kesalahan “Terlalu banyak file terbuka” saat mengirimkan pekerjaan Spark. Dalam rilis yang terkena dampak, AMI default Amazon EMR memiliki pengaturan ulimit default 4096 untuk “File terbuka maksimum,” yang lebih rendah dari batas file 65536 di AMI Amazon Linux 2 terbaruAmazon. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi EMR Amazon yang lebih lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit pengontrol instans ke maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Mulai ulang InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Tetapkan ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Dengan Amazon EMR 5.31.0, Anda dapat melakukan peluncuran klaster yang terintegrasi dengan Lake Formation. Integrasi ini menyediakan pem-filter-an data yang halus, tingkat-kolom ke basis data dan tabel di Katalog Data Glue AWS. Hal ini juga mengaktifkan sistem masuk tunggal federasi ke EMR Notebooks atau Apache Zeppelin dari sistem identitas korporasi. Untuk informasi selengkapnya, lihat Meng-integrasi-kan EMR dengan AWS Lake Formation di Panduan Pengelolaan Amazon EMR.

    Amazon EMR dengan Lake Formation saat ini tersedia di 16 Wilayah AWS: US East (Ohio dan N. Virginia), US West (N. California dan Oregon), Asia Pacific (Mumbai, Seoul, Singapura, Sydney, dan Tokyo), Canada (Central) Eropa (Frankfurt, Irlandia, London, Paris, dan Stockholm), South America (São Paulo).

Masalah yang diketahui
  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus menjalankan kembali perintah di atas setelah tiket Kerberos berakhir.

  • Saat AtRestEncryption enkripsi HDFS diaktifkan pada klaster yang menggunakan Amazon EMR 5.31.0 atau 5.32.0, kueri Hive menghasilkan pengecualian runtime berikut.

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
  • Saat Anda menggunakan format lokasi partisi Spark dengan Hive untuk membaca data di Amazon S3, dan Anda menjalankan Spark di Amazon EMR rilis 5.30.0 hingga 5.36.0, dan 6.2.0 hingga 6.9.0, Anda mungkin mengalami masalah yang mencegah klaster membaca data dengan benar. Ini dapat terjadi jika partisi Anda memiliki semua karakteristik berikut:

    • Dua atau lebih partisi dipindai dari tabel yang sama.

    • Setidaknya satu jalur direktori partisi adalah awalan dari setidaknya satu jalur direktori partisi lainnya, misalnya, s3://bucket/table/p=a adalah awalan dari. s3://bucket/table/p=a b

    • Karakter pertama yang mengikuti awalan di direktori partisi lain memiliki nilai UTF-8 yang kurang dari / karakter (U+002F). Misalnya, karakter spasi (U+0020) yang terjadi antara a dan b masuk s3://bucket/table/p=a b termasuk dalam kategori ini. Perhatikan bahwa ada 14 karakter non-kontrol lainnya:!"#$%&‘()*+,-. Untuk informasi selengkapnya, lihat tabel pengkodean UTF-8 dan karakter Unicode.

    Sebagai solusi untuk masalah ini, setel spark.sql.sources.fastS3PartitionDiscovery.enabled konfigurasi ke false dalam klasifikasi. spark-defaults

Rilis 6.1.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 6.1.0. Perubahan bersifat relatif terhadap versi 6.0.0.

Tanggal rilis awal: 04 September 2020

Tanggal terakhir diperbarui: 15 Oktober 2020

Aplikasi-aplikasi yang didukung
  • AWS SDK for Java versi 1.11.828

  • Flink versi 1.11.0

  • Ganglia versi 3.7.2

  • Hadoop versi 3.2.1-amzn-1

  • HBase versi 2.2.5

  • HB 1.0.0 ase-operator-tools

  • HCatalog versi 3.1.2-amzn-0

  • Hive versi 3.1.2-amzn-1

  • Hudi versi 0.5.2-incubating

  • Hue versi 4.7.1

  • JupyterHub versi 1.1.0

  • Livy versi 0.7.0

  • MXNet versi 1.6.0

  • Oozie versi 5.2.0

  • Phoenix versi 5.0.0

  • Presto versi 0.232

  • PrestoSQL versi 338

  • Spark versi 3.0.0-amzn-0

  • TensorFlow versi 2.1.0

  • Zeppelin versi 0.9.0-preview1

  • Zookeeper versi 3.4.14

  • Konektor dan driver: DynamoDB Connector 4.14.0

Fitur baru
  • Tipe instans ARM didukung mulai dari Amazon EMR versi 5.30.0 dan Amazon EMR versi 6.1.0.

  • Tipe instans tujuan umum M6g didukung mulai dengan Amazon EMR versi 6.1.0 dan 5.30.0. Untuk informasi selengkapnya, lihat Tipe instans yang didukung di Panduan Pengelolaan Amazon EMR.

  • Fitur grup penempatan EC2 didukung dimulai dengan Amazon EMR versi 5.23.0 sebagai opsi untuk beberapa cluster node utama. Saat ini, hanya tipe node primer yang didukung oleh fitur grup penempatan, dan SPREAD strategi diterapkan pada node utama tersebut. SPREADStrategi ini menempatkan sekelompok kecil instance di perangkat keras dasar yang terpisah untuk mencegah hilangnya beberapa node primer jika terjadi kegagalan perangkat keras. Untuk informasi selengkapnya, lihat Integrasi EMR dengan Grup Penempatan EC2 di Panduan Pengelolaan Amazon EMR.

  • Penskalaan Terkelola - Dengan Amazon EMR versi 6.1.0, Anda dapat mengaktifkan penskalaan terkelola Amazon EMR untuk secara otomatis menambah atau mengurangi jumlah instans atau unit di klaster berdasarkan beban kerja. Amazon EMR terus mengevaluasi metrik klaster untuk membuat keputusan penskalaan yang mengoptimalkan kluster Anda untuk biaya dan kecepatan. Penskalaan Terkelola juga tersedia di Amazon EMR versi 5.30.0 dan setelahnya, kecuali versi 6.0.0. Untuk informasi selengkapnya, lihat Penskalaan Sumber Daya Klaster di Panduan Pengelolaan Amazon EMR.

  • PrestoSQL versi 338 didukung dengan EMR 6.1.0. Untuk informasi selengkapnya, lihat Presto.

    • PrestoSQL didukung pada EMR 6.1.0 dan hanya versi setelahnya, namun tidak pada EMR 6.0.0 atau EMR 5.x.

    • Nama aplikasi, Presto terus-menerus digunakan untuk menginstal PrestoDB pada klaster. Untuk menginstal PrestoSQL pada klaster, gunakan nama aplikasi PrestoSQL.

    • Anda dapat menginstal PrestoDB atau PrestoSQL, tetapi Anda tidak dapat menginstal keduanya pada satu klaster. Jika PrestoDB dan PrestoSQL keduanya ditentukan ketika mencoba untuk membuat sebuah klaster, maka akan terjadi kesalahan validasi dan permintaan pembuatan klaster gagal.

    • PrestoSQL didukung pada klaster single-master dan muti-master. Pada klaster multi-master, metastore Hive eksternal diperlukan untuk menjalankan PrestoSQL atau PrestoDB. Lihat Aplikasi yang didukung dalam klaster EMR dengan beberapa node primer.

  • Support autentikasi otomatis ECR pada Apache Hadoop dan Apache Spark dengan Docker: pengguna Spark dapat menggunakan gambar Docker Hub dan Amazon Elastic Container Registry (Amazon ECR) untuk menentukan lingkungan dan dependensi perpustakaan.

    Konfigurasi Docker dan Jalankan Aplikasi Spark dengan Docker Menggunakan Amazon EMR 6.x.

  • EMR mendukung transaksi Apache Hive ACID: Amazon EMR 6.1.0 menambahkan support untuk transaksi ACID Hive sehingga sesuai dengan properti basis data ACID. Dengan fitur ini, Anda dapat menjalankan INSERT, UPDATE, DELETE, dan MERGE mengoperasikannya di tabel terkelola Hive dengan data di Amazon Simple Storage Service (Amazon S3). Ini adalah fitur kunci untuk kasus penggunaan seperti menyerap streaming, pernyataan ulang data, update massal menggunakan MERGE, dan mengubah dimensi secara perlahan. Untuk informasi lebih lanjut, termasuk contoh konfigurasi dan kasus penggunaan, lihat Amazon EMR mendukung transaksi Apache Hive ACID.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Ini adalah rilis untuk memperbaiki masalah dengan Amazon EMR Scaling ketika gagal meningkatkan/menurunkan skala cluster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar yang sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen EMR Amazon internal.

  • Peningkatan daemon EMR on-cluster untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • SPARK-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama penskalaan klaster karena Spark mengasumsikan semua node yang tersedia tidak terdaftar.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan dalam penonaktifan YARN saat cluster mencoba menaikkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster EMR Amazon dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti pengurangan skala dan pengiriman langkah gagal untuk kluster EMR Amazon yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster EMR Amazon tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi secara aman dengan HDFS/YARN yang berjalan pada node utama.

  • Rilis Amazon EMR yang lebih baru memperbaiki masalah dengan batas “Max open files” yang lebih rendah pada AL2 yang lebih lama di Amazon EMR. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru sekarang menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi.

  • Apache Flink tidak didukung pada EMR 6.0.0, tetapi didukung pada EMR 6.1.0 dengan Flink 1.11.0. Ini adalah versi pertama Flink yang secara resmi mendukung Hadoop 3. Lihat Pengumuman Rilis Apache Flink 1.11.0.

  • Ganglia telah dihapus dari bundel paket default EMR 6.1.0.

Masalah yang diketahui
  • Turunkan batas “Max open files” pada AL2 yang lebih lama [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit yang lebih rendah untuk “File terbuka maksimum” ketika kluster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah menyebabkan kesalahan “Terlalu banyak file terbuka” saat mengirimkan pekerjaan Spark. Dalam rilis yang terkena dampak, AMI default Amazon EMR memiliki pengaturan ulimit default 4096 untuk “File terbuka maksimum,” yang lebih rendah dari batas file 65536 di AMI Amazon Linux 2 terbaruAmazon. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi EMR Amazon yang lebih lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit pengontrol instans ke maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Mulai ulang InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Tetapkan ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • penting

    Amazon EMR 6.1.0 dan 6.2.0 mempunyai masalah performa yang secara kritis dapat mempengaruhi semua operasi insert, upsert, dan delete Hudi. Jika Anda berencana untuk menggunakan Hudi dengan Amazon EMR 6.1.0 atau 6.2.0, maka Anda harus menghubungi dukungan AWS untuk mendapatkan Hudi RPM yang telah di-patch.

  • Jika Anda mengatur konfigurasi pengumpulan sampah kustom dengan spark.driver.extraJavaOptions dan spark.executor.extraJavaOptions, ini akan mengakibatkan gagal peluncuran driver/pelaksana dengan EMR 6.1 karena konfigurasi pengumpulan sampah yang bertentangan. Dengan EMR Rilis 6.1.0, Anda harus menentukan konfigurasi pengumpulan sampah Spark kustom untuk driver dan pelaksana dengan properti spark.driver.defaultJavaOptions dan spark.executor.defaultJavaOptions sebagai gantinya. Baca selengkapnya di Lingkungan Waktu Aktif Apache Spark dan Mengkonfigurasi Pengumpulan Sampah Spark di Amazon EMR 6.1.0.

  • Menggunakan Pig dengan Oozie (dan dalam Hue, karena Hue menggunakan tindakan Oozie untuk menjalankan skrip Pig), akan menghasilkan kesalahan di mana perpustakaan native-lzo tidak dapat dimuat. Pesan kesalahan ini adalah informasi dan tidak memblokir Pig sehingga tidak berjalan.

  • Hudi Concurrency Support: Saat ini Hudi tidak mendukung tulis bersamaan ke tabel Hudi tunggal. Selain itu, Hudi membatalkan setiap perubahan yang dilakukan oleh penulis yang sedang berlangsung sebelum mengizinkan penulis baru untuk memulai. Tulis bersamaan dapat mengganggu mekanisme ini dan memperkenalkan kondisi ras, yang dapat menyebabkan korupsi data. Anda harus memastikan bahwa sebagai bagian dari alur kerja pengolahan data Anda, hanya ada satu penulis Hudi yang beroperasi terhadap tabel Hudi setiap saat. Hudi tidak mendukung beberapa pembaca bersamaan yang beroperasi terhadap tabel Hudi yang sama.

  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus menjalankan kembali perintah di atas setelah tiket Kerberos berakhir.

  • Ada masalah di Amazon EMR 6.1.0 yang mempengaruhi klaster yang menjalankan Presto. Setelah perpanjangan jangka waktu (hari), klaster mungkin membuang kesalahan seperti, "su: gagal untuk mengeksekusi/bin/bash: sumber daya sementara tidak tersedia" atau "permintaan shell gagal pada saluran 0". Masalah ini disebabkan oleh proses EMR Amazon internal (InstanceController) yang menghasilkan terlalu banyak Proses Berat Ringan (LWP), yang akhirnya menyebabkan pengguna Hadoop melebihi batas nproc mereka. Hal ini mencegah pengguna dari membuka proses tambahan. Solusi untuk masalah ini adalah untuk meng-upgrade ke EMR 6.2.0.

Rilis 6.0.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 6.0.0.

Tanggal rilis awal: 10 Maret 2020

Aplikasi-aplikasi yang didukung
  • AWS SDK for Java versi 1.11.711

  • Ganglia versi 3.7.2

  • Hadoop versi 3.2.1

  • HBase versi 2.2.3

  • HCatalog versi 3.1.2

  • Hive versi 3.1.2

  • Hudi versi 0.5.0-incubating

  • Hue versi 4.4.0

  • JupyterHub versi 1.0.0

  • Livy versi 0.6.0

  • MXNet versi 1.5.1

  • Oozie versi 5.1.0

  • Phoenix versi 5.0.0

  • Presto versi 0.230

  • Spark versi 2.4.4

  • TensorFlow versi 1.14.0

  • Zeppelin versi 0.9.0-SNAPSHOT

  • Zookeeper versi 3.4.14

  • Konektor dan driver: DynamoDB Connector 4.14.0

catatan

Flink, Sqoop, Babi, dan Mahout tidak tersedia di Amazon EMR versi 6.0.0.

Fitur baru
  • YARN Docker Runtime Support - aplikasi YARN, seperti tugas Spark, sekarang dapat berjalan dalam konteks kontainer Docker. Hal ini memungkinkan Anda untuk dengan mudah menentukan dependensi dalam gambar Docker tanpa perlu menginstal perpustakaan kustom di klaster Amazon EMR Anda. Untuk informasi selengkapnya, lihat Konfigurasi integrasi Docker dan Jalankan aplikasi Spark dengan Docker menggunakan Amazon EMR 6.0.0.

  • Hive LLAP Support - Hive sekarang mendukung modus eksekusi LLAP untuk meningkatkan performa kueri. Untuk informasi selengkapnya, lihat Menggunakan Hive LLAP.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Ini adalah rilis untuk memperbaiki masalah dengan Amazon EMR Scaling ketika gagal meningkatkan/menurunkan skala cluster dengan sukses atau menyebabkan kegagalan aplikasi.

  • Memperbaiki masalah saat permintaan penskalaan gagal untuk klaster besar yang sangat dimanfaatkan saat daemon on-cluster Amazon EMR menjalankan aktivitas pemeriksaan kesehatan, seperti mengumpulkan status node YARN dan status node HDFS. Ini terjadi karena daemon on-cluster tidak dapat mengkomunikasikan data status kesehatan node ke komponen EMR Amazon internal.

  • Peningkatan daemon EMR on-cluster untuk melacak status node dengan benar saat alamat IP digunakan kembali untuk meningkatkan keandalan selama operasi penskalaan.

  • SPARK-29683. Memperbaiki masalah di mana kegagalan pekerjaan terjadi selama penskalaan klaster karena Spark mengasumsikan semua node yang tersedia tidak terdaftar.

  • BENANG-9011. Memperbaiki masalah di mana kegagalan pekerjaan terjadi karena kondisi balapan dalam penonaktifan YARN saat cluster mencoba menaikkan atau menurunkan skala.

  • Memperbaiki masalah dengan kegagalan langkah atau pekerjaan selama penskalaan klaster dengan memastikan bahwa status node selalu konsisten antara daemon on-cluster EMR Amazon dan YARN/HDFS.

  • Memperbaiki masalah saat operasi klaster seperti pengurangan skala dan pengiriman langkah gagal untuk kluster EMR Amazon yang diaktifkan dengan otentikasi Kerberos. Ini karena daemon on-cluster EMR Amazon tidak memperbarui tiket Kerberos, yang diperlukan untuk berkomunikasi secara aman dengan HDFS/YARN yang berjalan pada node utama.

  • Rilis Amazon EMR yang lebih baru memperbaiki masalah dengan batas “Max open files” yang lebih rendah pada AL2 yang lebih lama di Amazon EMR. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru sekarang menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi.

  • Amazon Linux

    • Amazon Linux 2 adalah sistem operasi untuk seri rilis EMR 6.x.

    • systemd digunakan untuk pengelolaan layanan bukan upstart yang digunakan dalam Amazon Linux 1.

  • Java Development Kit (JDK)

    • Corretto JDK 8 adalah JDK default untuk seri rilis EMR 6.x.

  • Scala

    • Scala 2.12 digunakan dengan Apache Spark dan Apache Livy.

  • Python 3

    • Python 3 sekarang adalah versi default Python di EMR.

  • Label simpul YARN

    • Dimulai dengan Amazon EMR seri rilis 6.x, fitur label simpul YARN dinonaktifkan secara default. Proses utama aplikasi dapat berjalan pada kedua inti dan tugas simpul secara default. Anda dapat mengaktifkan fitur label simpul YARN dengan mengkonfigurasi properti berikut: yarn.node-labels.enabled dan yarn.node-labels.am.default-node-label-expression. Untuk informasi selengkapnya, lihat Memahami Node Primer, Inti, dan Tugas.

Masalah yang diketahui
  • Turunkan batas “Max open files” pada AL2 yang lebih lama [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit yang lebih rendah untuk “File terbuka maksimum” ketika kluster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah menyebabkan kesalahan “Terlalu banyak file terbuka” saat mengirimkan pekerjaan Spark. Dalam rilis yang terkena dampak, AMI default Amazon EMR memiliki pengaturan ulimit default 4096 untuk “File terbuka maksimum,” yang lebih rendah dari batas file 65536 di AMI Amazon Linux 2 terbaruAmazon. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi EMR Amazon yang lebih lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit pengontrol instans ke maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Mulai ulang InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Tetapkan ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Spark interaktif shell, termasuk PySpark, SparkR, dan spark-shell, tidak mendukung penggunaan Docker dengan pustaka tambahan.

  • Untuk menggunakan Python 3 dengan Amazon EMR versi 6.0.0, Anda harus menambahkan PATH ke yarn.nodemanager.env-whitelist.

  • Fungsionalitas Live Long and Proses (LLAP) tidak didukung saat Anda menggunakan Glue Katalog Data AWS sebagai metastore untuk Hive.

  • Bila menggunakan Amazon EMR 6.0.0 dengan integrasi Spark dan Docker, Anda harus mengkonfigurasi instans di klaster Anda dengan tipe instans yang sama dan jumlah volume EBS yang sama untuk menghindari gagal ketika mengirimkan tugas Spark dengan waktu aktif Docker.

  • Di Amazon EMR 6.0.0, HBase pada mode penyimpanan Amazon S3 dipengaruhi oleh masalah HBASE-24286. HBase utama tidak dapat menginisialisasi ketika klaster dibuat menggunakan data S3 yang ada.

  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.30.1

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.30.1. Perubahan bersifat relatif terhadap 5.30.0.

Tanggal rilis awal: 30 Juni 2020

Tanggal terakhir diperbarui: 24 Agustus 2020

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Rilis Amazon EMR yang lebih baru memperbaiki masalah dengan batas “Max open files” yang lebih rendah pada AL2 yang lebih lama di Amazon EMR. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru sekarang menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi.

  • Masalah di mana proses pengendali instans melahirkan jumlah proses yang tak terbatas telah diperbaiki.

  • Masalah di mana Hue tidak dapat menjalankan kueri Hive, menampilkan pesan "basis data terkunci" dan mencegah eksekusi kueri telah diperbaiki.

  • Perbaikan terhadap masalah Spark dalam mengaktifkan lebih banyak tugas untuk dijalankan secara bersamaan di klaster EMR.

  • Perbaikan terhadap masalah notebook Jupyter yang menyebabkan "kesalahan terlalu banyak file terbuka" di server Jupyter.

  • Perbaikan terhadap masalah dengan waktu mulai klaster.

Fitur baru
  • Antarmuka aplikasi persisten server linimasa Tez UI dan YARN tersedia dengan Amazon EMR versi 6.x, dan EMR versi 5.30.1 dan versi setelahnya. Akses tautan satu klik ke riwayat aplikasi persisten memungkinkan Anda mengakses riwayat tugas dengan cepat tanpa perlu menyiapkan proxy web melalui koneksi SSH. Log untuk klaster aktif dan yang dihentikan tersedia selama 30 hari setelah aplikasi berakhir. Untuk informasi selengkapnya, lihat Melihat Antarmuka Pengguna Aplikasi Persisten di Panduan Pengelolaan Amazon EMR.

  • API eksekusi EMR Notebook tersedia untuk mengeksekusi EMR notebooks melalui skrip atau baris perintah. Kemampuan untuk memulai, menghentikan, membuat daftar, dan menggambarkan eksekusi EMR notebooks tanpa konsol AWS memungkinkan Anda mengendalikan secara pemrograman EMR notebooks. Menggunakan sel notebook parameter, Anda dapat memberikan nilai parameter yang berbeda ke notebook tanpa harus membuat salinan notebook untuk setiap set baru nilai paramter. Lihat Tindakan API EMR. Untuk kode sampel, lihat Contoh perintah untuk menjalankan EMR Notebooks secara pemrograman.

Masalah yang diketahui
  • Turunkan batas “Max open files” pada AL2 yang lebih lama [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit yang lebih rendah untuk “File terbuka maksimum” ketika kluster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah menyebabkan kesalahan “Terlalu banyak file terbuka” saat mengirimkan pekerjaan Spark. Dalam rilis yang terkena dampak, AMI default Amazon EMR memiliki pengaturan ulimit default 4096 untuk “File terbuka maksimum,” yang lebih rendah dari batas file 65536 di AMI Amazon Linux 2 terbaruAmazon. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi EMR Amazon yang lebih lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit pengontrol instans ke maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Mulai ulang InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Tetapkan ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • EMR Notebooks

    Fitur yang memungkinkan Anda untuk menginstal kernel dan pustaka Python tambahan pada node utama cluster dinonaktifkan secara default pada EMR versi 5.30.1. Untuk informasi selengkapnya tentang fitur ini, lihat Menginstal Kernel dan Pustaka Python pada Node Utama Cluster.

    Untuk mengaktifkan fitur, lakukan hal berikut ini:

    1. Pastikan bahwa kebijakan izin yang dilampirkan ke peran layanan untuk EMR Notebooks mengizinkan tindakan berikut ini:

      elasticmapreduce:ListSteps

      Untuk informasi selengkapnya, lihat Peran Layanan untuk EMR Notebooks.

    2. Gunakan AWS CLI untuk menjalankan langkah pada klaster yang mengatur EMR Notebooks seperti yang ditunjukkan dalam contoh berikut. Ganti us-east-1 dengan Daerah di mana klaster Anda berada. Untuk informasi selengkapnya, lihat Menambahkan Langkah-langkah untuk Klaster Menggunakan AWS CLI.

      aws emr add-steps --cluster-id MyClusterID --steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
  • Penskalaan terkelola

    Operasi penskalaan terkelola pada klaster 5.30.0 dan 5.30.1 tanpa Presto yang diinstal dapat menyebabkan gagal aplikasi atau menyebabkan grup instans seragam atau armada instans tetap berada di negara ARRESTED, terutama ketika operasi menurunkan skala diikuti dengan cepat oleh operasi menaikkan skala.

    Sebagai solusinya, pilih Presto sebagai aplikasi untuk diinstal saat Anda membuat cluster dengan Amazon EMR rilis 5.30.0 dan 5.30.1, bahkan jika pekerjaan Anda tidak memerlukan Presto.

  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus menjalankan kembali perintah di atas setelah tiket Kerberos berakhir.

  • Saat Anda menggunakan format lokasi partisi Spark dengan Hive untuk membaca data di Amazon S3, dan Anda menjalankan Spark di Amazon EMR rilis 5.30.0 hingga 5.36.0, dan 6.2.0 hingga 6.9.0, Anda mungkin mengalami masalah yang mencegah klaster membaca data dengan benar. Ini dapat terjadi jika partisi Anda memiliki semua karakteristik berikut:

    • Dua atau lebih partisi dipindai dari tabel yang sama.

    • Setidaknya satu jalur direktori partisi adalah awalan dari setidaknya satu jalur direktori partisi lainnya, misalnya, s3://bucket/table/p=a adalah awalan dari. s3://bucket/table/p=a b

    • Karakter pertama yang mengikuti awalan di direktori partisi lain memiliki nilai UTF-8 yang kurang dari / karakter (U+002F). Misalnya, karakter spasi (U+0020) yang terjadi antara a dan b masuk s3://bucket/table/p=a b termasuk dalam kategori ini. Perhatikan bahwa ada 14 karakter non-kontrol lainnya:!"#$%&‘()*+,-. Untuk informasi selengkapnya, lihat tabel pengkodean UTF-8 dan karakter Unicode.

    Sebagai solusi untuk masalah ini, setel spark.sql.sources.fastS3PartitionDiscovery.enabled konfigurasi ke false dalam klasifikasi. spark-defaults

Rilis 5.30.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.30.0. Perubahan bersifat relatif terhadap 5.29.0.

Tanggal rilis awal: 13 Mei 2020

Tanggal terakhir diperbarui: 25 Juni 2020

Upgrade
  • AWS SDK for Java telah di-upgrade ke versi 1.11.759

  • Upgrade Amazon SageMaker Spark SDK ke versi 1.3.0

  • EMR Record Server telah di-upgrade ke versi 1.6.0

  • Flink telah di-upgrade ke versi 1.10.0

  • Ganglia telah di-upgrade ke versi 3.7.2

  • HBase telah di-upgrade ke versi 1.4.13

  • Hudi telah di-upgrade ke versi 0.5.2-incubating

  • Hue telah di-upgrade ke versi 4.6.0

  • Upgrade JupyterHub ke versi 1.1.0

  • Livy telah di-upgrade ke versi 0.7.0-incubating

  • Oozie telah di-upgrade ke versi 5.2.0

  • Presto telah di-upgrade ke versi 0.232

  • Spark telah di-upgrade ke versi 2.4.5

  • Konektor dan Driver yang ditingkatkan: Glue Amazon Connector 1.12.0; Amazon Kinesis Connector 3.5.0; EMR DynamoDB Connector 4.14.0

Fitur baru
  • EMR Notebooks – Bila digunakan dengan klaster EMR yang dibuat menggunakan 5.30.0, kernel EMR notebooks akan berjalan di klaster. Hal ini meningkatkan performa notebook dan mengizinkan Anda untuk menginstal dan menyesuaikan kernel. Anda juga dapat menginstal pustaka Python pada node utama cluster. Untuk informasi selengkapnya, lihat Menginstal dan Menggunakan Kernel dan Perpustakaan di Panduan Manajemen EMR.

  • Penskalaan Terkelola – Dengan Amazon EMR versi 5.30.0 dan versi yang lebih baru, Anda dapat mengaktifkan penskalaan terkelola EMR untuk secara otomatis menambah atau mengurangi jumlah instans atau unit di klaster Anda berdasarkan beban kerja. Amazon EMR terus mengevaluasi metrik klaster untuk membuat keputusan penskalaan yang mengoptimalkan kluster Anda untuk biaya dan kecepatan. Untuk informasi selengkapnya, lihat Penskalaan Sumber Daya Klaster di Panduan Pengelolaan Amazon EMR.

  • Mengenkripsi berkas log yang disimpan di Amazon S3 – Dengan Amazon EMR versi 5.30.0 dan versi setelahnya, Anda dapat mengenkripsi berkas log yang disimpan di Amazon S3 dengan kunci terkelola pelanggan AWS KMS. Untuk informasi selengkapnya, lihat Mengenkripsi berkas log yang disimpan di Amazon S3 di Panduan Pengelolaan Amazon EMR.

  • Support Amazon Linux 2 – Dalam EMR versi 5.30.0 dan setelahnya, EMR UseSamazon Linux 2 OS. AMI (Amazon Machine Image) kustom baru harus didasarkan pada AMI Amazon Linux 2. Untuk informasi selengkapnya, lihat Menggunakan AMI Kustom.

  • Penskalaan Otomatis Presto Graceful – Klaster EMR menggunakan 5.30.0 dapat diatur dengan periode waktu habis penskalaan otomatis yang memberikan Presto waktu tugas untuk menyelesaikan running-nya sebelum simpul mereka dinonaktifkan. Untuk informasi selengkapnya, lihat Menggunakan penskalaan otomatis Presto dengan Graceful Decommission.

  • Pembuatan Instans Armada dengan opsi strategi alokasi baru – Opsi strategi alokasi baru tersedia di EMR versi 5.12.1 dan versi setelahnya. Ia menawarkan penyediaan klaster yang lebih cepat, alokasi tempat yang lebih akurat, dan interupsi instans spot yang sedikit. Pembaruan untuk peran layanan EMR non-default diperlukan. Lihat Mengkonfigurasi Armada Instans.

  • sudo systemctl berhenti dan sudo systemctl memulai perintah – Dalam EMR versi 5.30.0 dan versi setelahnya, yang menggunakan Amazon Linux 2 OS, EMR menggunakan perintah sudo systemctl stop dan sudo systemctl start untuk memulai ulang layanan. Untuk informasi selengkapnya, lihat Bagaimana cara me-restart layanan di Amazon EMR?.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • EMR versi 5.30.0 tidak menginstal Ganglia secara default. Anda dapat secara eksplisit memilih Ganglia untuk menginstalnya ketika Anda membuat sebuah klaster.

  • Optimalisasi performa Spark.

  • Optimalisasi performa Presto.

  • Python 3 adalah default untuk Amazon EMR versi 5.30.0 dan versi setelahnya.

  • Grup keamanan terkelola default untuk akses layanan di subnet privat telah diperbarui dengan aturan baru. Jika Anda menggunakan grup keamanan kustom untuk akses layanan, Anda harus menyertakan aturan yang sama sesuai grup keamanan terkelola default. Untuk informasi selengkapnya, lihat Grup Keamanan Terkelola-Amazon EMR untuk Akses Layanan (Subnet Privat). Jika Anda menggunakan peran layanan kustom untuk Amazon EMR, Anda harus memberikan izin untuk ec2:describeSecurityGroups sehingga EMR dapat melakukan validasi apakah grup keamanan dibuat dengan benar. Jika Anda menggunakan EMR_DefaultRole, izin ini telah disertakan dalam kebijakan terkelola default.

Masalah yang diketahui
  • Turunkan batas “Max open files” pada AL2 yang lebih lama [diperbaiki dalam rilis yang lebih baru]. Rilis Amazon EMR: emr-5.30.x, emr-5.31.0, emr-5.32.0, emr-6.0.0, emr-6.1.0, dan emr-6.2.0 didasarkan pada versi lama dari Amazon Linux 2 (AL2), yang memiliki pengaturan ulimit yang lebih rendah untuk “File terbuka maksimum” ketika kluster Amazon EMR dibuat dengan AMI default. Amazon EMR merilis 5.30.1, 5.30.2, 5.31.1, 5.32.1, 6.0.1, 6.1.1, 6.2.1, 5.33.0, 6.3.0 dan yang lebih baru menyertakan perbaikan permanen dengan pengaturan “Max open files” yang lebih tinggi. Rilis dengan batas file terbuka yang lebih rendah menyebabkan kesalahan “Terlalu banyak file terbuka” saat mengirimkan pekerjaan Spark. Dalam rilis yang terkena dampak, AMI default Amazon EMR memiliki pengaturan ulimit default 4096 untuk “File terbuka maksimum,” yang lebih rendah dari batas file 65536 di AMI Amazon Linux 2 terbaruAmazon. Pengaturan ulimit yang lebih rendah untuk "Maksimal file terbuka" menyebabkan kegagalan tugas Spark ketika driver dan pelaksana mencoba untuk membuka lebih dari 4096 file. Untuk memperbaiki masalah, Amazon EMR memiliki skrip tindakan bootstrap (BA) yang menyesuaikan pengaturan ulimit saat pembuatan klaster.

    Jika Anda menggunakan versi EMR Amazon yang lebih lama yang tidak memiliki perbaikan permanen untuk masalah ini, solusi berikut memungkinkan Anda untuk secara eksplisit mengatur ulimit pengontrol instans ke maksimum 65536 file.

    Mengatur secara eksplisit ulimit dari baris perintah
    1. Edit /etc/systemd/system/instance-controller.service untuk menambahkan parameter berikut ke bagian Layanan.

      LimitNOFILE=65536

      LimitNPROC=65536

    2. Mulai ulang InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    Tetapkan ulimit menggunakan tindakan bootstrap (BA)

    Anda juga dapat menggunakan skrip tindakan bootstrap (BA) untuk mengkonfigurasi ulimit instans-pengendali menjadi 65536 file saat pembuatan klaster.

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Penskalaan terkelola

    Operasi penskalaan terkelola pada klaster 5.30.0 dan 5.30.1 tanpa Presto yang diinstal dapat menyebabkan gagal aplikasi atau menyebabkan grup instans seragam atau armada instans tetap berada di negara ARRESTED, terutama ketika operasi menurunkan skala diikuti dengan cepat oleh operasi menaikkan skala.

    Sebagai solusinya, pilih Presto sebagai aplikasi untuk diinstal saat Anda membuat cluster dengan Amazon EMR rilis 5.30.0 dan 5.30.1, bahkan jika pekerjaan Anda tidak memerlukan Presto.

  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus menjalankan kembali perintah di atas setelah tiket Kerberos berakhir.

  • Mesin basis data default untuk Hue 4.6.0 adalah SQLite, yang menyebabkan masalah ketika Anda mencoba untuk menggunakan Hue dengan basis data eksternal. Untuk memperbaikinya, atur engine di klasifikasi konfigurasi hue-ini Anda menjadi mysql. Masalah ini telah diperbaiki di Amazon EMR versi 5.30.1.

  • Saat Anda menggunakan format lokasi partisi Spark dengan Hive untuk membaca data di Amazon S3, dan Anda menjalankan Spark di Amazon EMR rilis 5.30.0 hingga 5.36.0, dan 6.2.0 hingga 6.9.0, Anda mungkin mengalami masalah yang mencegah klaster membaca data dengan benar. Ini dapat terjadi jika partisi Anda memiliki semua karakteristik berikut:

    • Dua atau lebih partisi dipindai dari tabel yang sama.

    • Setidaknya satu jalur direktori partisi adalah awalan dari setidaknya satu jalur direktori partisi lainnya, misalnya, s3://bucket/table/p=a adalah awalan dari. s3://bucket/table/p=a b

    • Karakter pertama yang mengikuti awalan di direktori partisi lain memiliki nilai UTF-8 yang kurang dari / karakter (U+002F). Misalnya, karakter spasi (U+0020) yang terjadi antara a dan b masuk s3://bucket/table/p=a b termasuk dalam kategori ini. Perhatikan bahwa ada 14 karakter non-kontrol lainnya:!"#$%&‘()*+,-. Untuk informasi selengkapnya, lihat tabel pengkodean UTF-8 dan karakter Unicode.

    Sebagai solusi untuk masalah ini, setel spark.sql.sources.fastS3PartitionDiscovery.enabled konfigurasi ke false dalam klasifikasi. spark-defaults

Rilis 5.29.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.29.0. Perubahan bersifat relatif terhadap 5.28.1.

Tanggal rilis awal: 17 Januari 2020

Upgrade
  • Diupgrade AWS SDK for Java ke versi 1.11.682

  • Hive telah di-upgrade ke versi 2.3.6

  • Flink telah di-upgrade ke versi 1.9.1

  • EmrFS telah di-upgrade ke versi 2.38.0

  • EMR DynamoDB Connector telah di-upgrade ke versi 4.13.0

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Spark

    • Optimalisasi performa Spark.

  • EMRFS

    • Pembaruan Panduan Pengelolaan untuk pengaturan default emrfs-site.xml untuk tampilan konsisten.

Masalah yang diketahui
  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.28.1

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.28.1. Perubahan bersifat relatif terhadap 5.28.0.

Tanggal rilis awal: 10 Januari 2020

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Spark

    • Masalah kompatibilitas Spark yang telah diperbaiki.

  • CloudWatch Metrik

    • Memperbaiki penerbitan Amazon CloudWatch Metrics pada kluster EMR dengan beberapa node utama.

  • Pesan log telah dinonaktifkan

    • Pesan log SALAH, "... menggunakan versi lama (<4.5.8) dari Apache http client." telah dinonaktifkan

Masalah yang diketahui
  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.28.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.28.0. Perubahan bersifat relatif terhadap 5.27.0.

Tanggal rilis awal: 12 November 2019

Upgrade
  • Flink telah di-upgrade ke versi 1.9.0

  • Hive telah di-upgrade ke versi 2.3.6

  • MXNet telah di-upgrade ke versi 1.5.1

  • Phoenix telah di-upgrade ke versi 4.14.3

  • Presto telah di-upgrade ke versi 0.227

  • Zeppelin telah di-upgrade ke versi 0.8.2

Fitur baru
  • Apache Hudi sekarang tersedia untuk diinstall Amazon EMR ketika Anda membuat sebuah klaster. Untuk informasi selengkapnya, lihat Hudi.

  • (25 November 2019) Sekarang Anda dapat memilih untuk menjalankan beberapa langkah secara paralel untuk meningkatkan pemanfaatan klaster dan menghemat biaya. Anda juga dapat membatalkan langkah-langkah yang tertunda dan sedang berjalan. Untuk informasi selengkapnya, lihat Bekerja dengan Langkah-langkah Menggunakan AWS CLI dan Konsol.

  • (3 Desember 2019) Sekarang Anda dapat membuat dan menjalankan klaster EMR di AWS Outposts. AWS Outpostsmengaktifkan layanan, infrastruktur, dan model operasi AWS asli di fasilitas on-premise. Dalam lingkungan AWS Outposts, Anda dapat menggunakan API, alat, dan infrastruktur AWS yang Anda gunakan di cloud AWS. Untuk informasi selengkapnya, lihat kluster EMR di. AWS Outposts

  • (11 Maret 2020) Dimulai dengan Amazon EMR versi 5.28.0, Anda dapat membuat dan menjalankan klaster Amazon EMR pada subnet AWS Local Zones sebagai perpanjangan logis dari Wilayah AWS yang mendukung Local Zones. Sebuah Local Zones mengaktifkan fitur Amazon EMR dan subset dari layanan AWS, seperti layanan komputasi dan penyimpanan, untuk ditempatkan lebih dekat dengan pengguna, memberikan akses latensi yang sangat rendah ke aplikasi yang berjalan secara lokal. Untuk daftar Local Zones yang tersedia, lihat AWS Local Zones. Untuk informasi tentang cara mengakses AWS Local Zones yang tersedia, lihat Wilayah, Availability Zone, dan Local Zones.

    Local Zones saat ini tidak mendukung Amazon EMR Notebooks dan tidak mendukung koneksi langsung ke Amazon EMR menggunakan antarmuka VPC endpoint (). AWS PrivateLink

Perubahan, penyempurnaan, dan masalah yang diselesaikan
Masalah yang diketahui
  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.27.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.27.0. Perubahan bersifat relatif terhadap 5.26.0.

Tanggal rilis awal: 23 September 2019

Upgrade
  • AWS SDK for Java1.11.615

  • Flink versi 1.8.1

  • JupyterHub 1.0.0

  • Spark versi 2.4.4

  • Tensorflow versi 1.14.0

  • Konektor dan driver:

    • DynamoDB Connector 4.12.0

Fitur baru
  • (24 Oktober 2019) Fitur baru berikut di notebook EMR tersedia dengan semua rilis Amazon EMR.

    • Anda sekarang dapat mengasosiasikan repositori Git dengan EMR notebooks untuk menyimpan notebook Anda dalam lingkungan terkendali versi. Anda dapat berbagi kode dengan rekan-rekan dan menggunakan kembali notebook Jupyter yang ada melalui repositori Git jauh. Untuk informasi selengkapnya, lihat Associate Repositori Git dengan Amazon EMR Notebooks di Panduan Pengelolaan Amazon EMR.

    • Utilitas nbdime sekarang tersedia di notebook EMR untuk menyederhanakan membandingkan dan menggabungkan notebook.

    • Notebook EMR sekarang mendukung. JupyterLab JupyterLab adalah lingkungan pengembangan interaktif berbasis web yang sepenuhnya kompatibel dengan notebook Jupyter. Anda sekarang dapat memilih untuk membuka buku catatan Anda di salah satu JupyterLab atau editor notebook Jupyter.

  • (30 Oktober 2019) Dengan Amazon EMR versi 5.25.0 dan versi setelahnya, Anda dapat terhubung ke UI server riwayat Spark dari halaman klaster Ringkasan atau tab Riwayat aplikasi di konsol. Alih-alih menyiapkan proxy web melalui koneksi SSH, Anda dapat dengan cepat mengakses UI server riwayat Spark untuk melihat metrik aplikasi dan mengakses berkas log yang relevan untuk klaster aktif dan yang dihentikan. Untuk informasi selengkapnya, lihat Akses off-klaster ke antarmuka pengguna aplikasi persisten di Panduan Pengelolaan Amazon EMR.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
Masalah yang diketahui
  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.26.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.26.0. Perubahan relatif terhadap 5.25.0.

Tanggal rilis awal: 8 Agustus 2019

Tanggal diperbarui terakhir: 19 Agustus 2019

Upgrade
  • AWS SDK for Java1.11.595

  • HBase versi 1.4.10

  • Phoenix versi 4.14.2

  • Konektor dan driver:

    • DynamoDB Connector versi 4.11.0

    • MariaDB Connector versi 2.4.2

    • Amazon Redshift JDBC Driver versi 1.2.32.1056

Fitur baru
  • (Beta) Dengan Amazon EMR 5.26.0, Anda dapat melakukan peluncuran klaster yang terintegrasi dengan Lake Formation. Integrasi ini menyediakan pem-filter-an data yang halus, akses tingkat-kolom ke basis data dan tabel di Katalog Data Glue AWS. Hal ini juga mengaktifkan sistem masuk tunggal federasi ke EMR Notebooks atau Apache Zeppelin dari sistem identitas korporasi. Untuk informasi selengkapnya, lihat Mengintegrasikan Amazon EMR dengan AWS Lake Formation (Beta).

  • (19 Agustus 2019) Blok akses publik Amazon EMR sekarang tersedia dengan semua rilis Amazon EMR yang mendukung grup keamanan. Blok publik akses adalah pengaturan seluruh akun yang diterapkan untuk setiap Wilayah AWS. Blok akses publik mencegah klaster melakukan peluncuran ketika setiap grup keamanan yang terkait dengan klaster memiliki aturan yang mengizinkan lalu lintas masuk dari IPv4 0.0.0.0/0 atau IPv6 ::/0 (akses publik) pada port, kecuali port ditetapkan sebagai pengecualian. Port 22 adalah pengecualian secara default. Untuk informasi lebih lanjut, lihat Menggunakan Blok Publik Akses Amazon EMR dalam Panduan Pengelolaan EMR Amazon.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • EMR Notebooks

    • Dengan EMR 5.26.0 dan versi yang lebih baru, EMR Notebooks mendukung perpustakaan Python notebook-scoped selain perpustakaan Python default. Anda dapat menginstal perpustakaan notebook-scoped dari dalam notebook editor tanpa harus membuat ulang klaster atau melampirkan ulang notebook untuk klaster. Perpustakaan notebook-scoped dibuat dalam lingkungan virtual Python, sehingga mereka hanya berlaku untuk sesi notebook saat ini. Ini mengizinkan Anda mengisolasi dependensi notebook. Untuk informasi selengkapnya, lihat Menggunakan Perpustakaan Notebook Scoped di Panduan Pengelolaan Amazon EMR.

  • EMRFS

    • Anda dapat mengaktifkan fitur verifikasi ETag (Beta) dengan mengatur fs.s3.consistent.metadata.etag.verification.enabled menjadi true. Dengan fitur ini, EMRFS menggunakan Amazon S3 ETags untuk memverifikasi bahwa objek yang dibaca adalah versi paling baru yang tersedia. Fitur ini berguna untuk kasus read-after-update penggunaan di mana file di Amazon S3 ditimpa sambil mempertahankan nama yang sama. Kemampuan verifikasi ETag ini saat ini tidak bekerja dengan S3 Select. Untuk informasi selengkapnya, lihat Mengkonfigurasi Tampilan Konsisten.

  • Spark

    • Optimasi berikut sekarang diaktifkan secara default: partisi pemangkasan dinamis, DISTINCT sebelum INTERSECT, perbaikan dalam inferensi statistik rencana SQL untuk JOIN diikuti oleh kueri DISTINCT, meratakan sub-kueri scalar, join reorder yang dioptimalkan, dan bloom filter join. Untuk informasi selengkapnya, lihat Mengoptimalkan Performa Spark.

    • Peningkatan seluruh pembuatan kode tahap untuk Sort Merge Join.

    • Peningkatan fragmen kueri dan penggunaan kembali subkueri.

    • Perbaikan untuk melakukan pra-alokasi pelaksana pada saat memulai Spark.

    • Bloom filter join tidak lagi diterapkan ketika join sisi yang lebih kecil mencakup petunjuk siaran.

  • Tez

    • Menyelesaikan masalah dengan Tez. Tez UI sekarang bekerja pada cluster EMR Amazon dengan beberapa node utama.

Masalah yang diketahui
  • Peningkatan seluruh kemampuan tahap kode generasi untuk Sort Merge Join dapat meningkatkan tekanan memori ketika diaktifkan. Optimalisasi ini meningkatkan performa, tetapi dapat mengakibatkan coba lagi atau gagal tugas jika spark.yarn.executor.memoryOverheadFactor tidak disetel untuk memberikan memori yang cukup. Untuk menonaktifkan fitur ini, atur spark.sql.sortMergeJoinExec.extendedCodegen.enabled ke SALAH.

  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.25.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.25.0. Perubahan bersifat relatif terhadap 5.24.1.

Tanggal rilis awal: 17 Juli 2019

Tanggal terakhir diperbarui: 30 Oktober 2019

Amazon EMR 5.25.0

Upgrade
  • AWS SDK for Java1.11.566

  • Hive versi 2.3.5

  • Presto versi 0.220

  • Spark versi 2.4.3

  • TensorFlow 1.13.1

  • Tez versi 0.9.2

  • Zookeeper versi 3.4.14

Fitur baru
  • (30 Oktober 2019) Dimulai dengan Amazon EMR versi 5.25.0, Anda dapat terhubung ke UI server riwayat Spark dari halaman klaster Ringkasan atau tab Riwayat aplikasi di konsol. Alih-alih menyiapkan proxy web melalui koneksi SSH, Anda dapat dengan cepat mengakses UI server riwayat Spark untuk melihat metrik aplikasi dan mengakses berkas log yang relevan untuk klaster aktif dan yang dihentikan. Untuk informasi selengkapnya, lihat Akses off-klaster ke antarmuka pengguna aplikasi persisten di Panduan Pengelolaan Amazon EMR.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Spark

    • Peningkatan performa beberapa join dengan menggunakan filter Bloom untuk melakukan pra-filter input. Optimalisasi dinonaktifkan secara default dan dapat diaktifkan dengan mengatur parameter konfigurasi Spark dari spark.sql.bloomFilterJoin.enabled ke true.

    • Peningkatan performa pembuatan grup menurut kolom tipe string.

    • Peningkatan memori eksekutor default Spark dan konfigurasi inti tipe instans R4 untuk klaster tanpa HBase yang diinstal.

    • Penyelesaian masalah sebelumnya terkait dengan fitur pemangkasan partisi dinamis di mana tabel yang dipangkas harus berada di sisi kiri join.

    • Peningkatan DISTINCT sebelum optimasi INTERSECT untuk diterapkan pada kasus tambahan yang melibatkan nama alias.

    • Peningkatan inferensi statistik rencana SQL untuk JOIN yang diikuti oleh kueri DISTINCT. Perbaikan ini dinonaktifkan secara default dan dapat diaktifkan dengan mengatur parameter konfigurasi Spark dari spark.sql.statsImprovements.enabled ke true. Optimasi ini diperlukan oleh fitur Distinct before Intersect dan akan diaktifkan secara otomatis ketika spark.sql.optimizer.distinctBeforeIntersect.enabled diatur ke true.

    • Join order telah dioptimalkan berdasarkan ukuran tabel dan filter. Optimalisasi ini dinonaktifkan secara default dan dapat diaktifkan dengan menetapkan parameter konfigurasi Spark dari spark.sql.optimizer.sizeBasedJoinReorder.enabled ke true.

    Untuk informasi selengkapnya, lihat Mengoptimalkan Performa Spark.

  • EMRFS

    • Pengaturan EMRFS, fs.s3.buckets.create.enabled, sekarang dinonaktifkan secara default. Dengan pengujian, kami menemukan bahwa dengan menonaktifkan pengaturan ini akan meningkatkan performa dan mencegah pembuatan bucket S3 yang tidak disengaja. Jika aplikasi Anda bergantung pada fungsi ini, maka Anda dapat mengaktifkannya dengan mengatur properti fs.s3.buckets.create.enabled ke true di klasifikasi konfigurasi emrfs-site. Untuk informasi, lihat Menyediakan Konfigurasi saat Membuat Klaster.

  • Enkripsi Disk Lokal dan Peningkatan Enkripsi S3 dalam Konfigurasi Keamanan (5 Agustus 2019)

    • Pemisahan pengaturan enkripsi Amazon S3 dari pengaturan enkripsi disk lokal dalam pengaturan konfigurasi keamanan.

    • Penambahan opsi untuk mengaktifkan enkripsi EBS dengan rilis 5.24.0 dan versi setelahnya. Memilih opsi ini akan mengenkripsi volume perangkat asal selain volume penyimpanan. Versi sebelumnya diharuskan menggunakan AMI kustom untuk mengenkripsi volume perangkat asal.

    • Untuk informasi selengkapnya, lihat Opsi Enkripsi di Panduan Pengelolaan Amazon EMR.

Masalah yang diketahui
  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.24.1

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.24.1. Perubahan bersifat relatif terhadap 5.24.0.

Tanggal rilis awal: 26 Juni 2019

Masalah yang diketahui
  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.24.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.24.0. Perubahan bersifat relatif terhadap 5.23.0.

Tanggal rilis awal: 11 Juni 2019

Terakhir diperbarui tanggal: 5 Agustus 2019

Upgrade
  • Flink versi 1.8.0

  • Hue versi 4.4.0

  • JupyterHub 0.9.6

  • Livy versi 0.6.0

  • MxNet 1.4.0

  • Presto versi 0.219

  • Spark versi 2.4.2

  • AWS SDK for Java1.11.546

  • Konektor dan driver:

    • DynamoDB Connector versi 4.9.0

    • MariaDB Connector versi 2.4.1

    • Amazon Redshift JDBC Driver versi 1.2.27.1051

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Spark

    • Penambahan optimasi untuk memangkas partisi secara dinamis. Optimalisasi dinonaktifkan secara default. Untuk mengaktifkannya, atur parameter konfigurasi Spark dari spark.sql.dynamicPartitionPruning.enabled ke true.

    • Peningkatan performa kueri INTERSECT. Optimalisasi ini dinonaktifkan secara default. Untuk mengaktifkannya, atur parameter konfigurasi Spark dari spark.sql.optimizer.distinctBeforeIntersect.enabled ke true.

    • Penambahan optimalisasi untuk meratakan subkueri scalar dengan agregat yang menggunakan relasi yang sama. Optimalisasi dinonaktifkan secara default. Untuk mengaktifkannya, atur parameter konfigurasi Spark dari spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabled ke true.

    • Peningkatan seluruh pembuatan kode tahap.

    Untuk informasi selengkapnya, lihat Mengoptimalkan Performa Spark.

  • Enkripsi Disk Lokal dan Peningkatan Enkripsi S3 dalam Konfigurasi Keamanan (5 Agustus 2019)

    • Pemisahan pengaturan enkripsi Amazon S3 dari pengaturan enkripsi disk lokal dalam pengaturan konfigurasi keamanan.

    • Penambahan opsi untuk mengaktifkan enkripsi EBS. Memilih opsi ini akan mengenkripsi volume perangkat asal selain volume penyimpanan. Versi sebelumnya diharuskan menggunakan AMI kustom untuk mengenkripsi volume perangkat asal.

    • Untuk informasi selengkapnya, lihat Opsi Enkripsi di Panduan Pengelolaan Amazon EMR.

Masalah yang diketahui
  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.23.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.23.0. Perubahan bersifat relatif terhadap 5.22.0.

Tanggal rilis awal: 01 April 2019

Tanggal terakhir diperbarui: 30 April 2019

Upgrade
  • AWS SDK for Java1.11.519

Fitur baru
  • (30 April 2019) Dengan Amazon EMR 5.23.0 dan yang lebih baru, Anda dapat meluncurkan cluster dengan tiga node utama untuk mendukung ketersediaan aplikasi yang tinggi seperti YARN Resource Manager, HDFS NameNode, Spark, Hive, dan Ganglia. Node primer tidak lagi menjadi titik kegagalan tunggal potensial dengan fitur ini. Jika salah satu node primer gagal, Amazon EMR secara otomatis gagal ke node primer siaga dan mengganti node primer yang gagal dengan yang baru dengan konfigurasi dan tindakan bootstrap yang sama. Untuk informasi selengkapnya, lihat Merencanakan dan Mengkonfigurasi Node Utama.

Masalah yang diketahui
  • Tez UI (Diperbaiki di Amazon EMR rilis 5.26.0)

    Tez UI tidak berfungsi pada cluster EMR dengan beberapa node primer.

  • Hue (Diperbaiki di Amazon EMR rilis 5.24.0)

    • Hue yang berjalan di Amazon EMR tidak mendukung Solr. Dimulai dengan rilis Amazon EMR 5.20.0, masalah kesalahan konfigurasi menyebabkan Solr diaktifkan dan pesan kesalahan yang tidak berbahaya muncul mirip dengan yang berikut ini:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Untuk mencegah pesan kesalahan Solr muncul:

      1. Connect ke baris perintah node primer menggunakan SSH.

      2. Gunakan editor teks untuk membuka file hue.ini. Sebagai contoh:

        sudo vim /etc/hue/conf/hue.ini

      3. Cari istilah appblacklist dan ubah baris menjadi yang berikut:

        appblacklist = search
      4. Simpan perubahan dan mulai ulang Hue seperti yang ditunjukkan dalam contoh berikut:

        sudo stop hue; sudo start hue
  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.22.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.22.0. Perubahan bersifat relatif terhadap 5.21.0.

penting

Dimulai dengan rilis Amazon EMR 5.22.0, Amazon EMR AWS menggunakan Signature Version 4 secara eksklusif untuk mengautentikasi permintaan ke Amazon S3. Rilis Amazon EMR sebelumnya menggunakan AWS Signature Version 2 dalam beberapa kasus, kecuali catatan rilis menunjukkan bahwa Signature Version 4 digunakan secara eksklusif. Untuk informasi selengkapnya, lihat Melakukan Autentikasi Permintaan (Tanda Tangan Versi 4 AWS) dan Melakukan Autentikasi Permintaan (Tanda Tangan Versi 2 AWS) di Panduan Developer Amazon Simple Storage Service.

Tanggal rilis awal: 20 Maret 2019

Upgrade
  • Flink versi 1.7.1

  • HBase versi 1.4.9

  • Oozie versi 5.1.0

  • Phoenix versi 4.14.1

  • Zeppelin versi 0.8.1

  • Konektor dan driver:

    • DynamoDB Connector versi 4.8.0

    • MariaDB Connector versi 2.2.6

    • Amazon Redshift JDBC Driver versi 1.2.20.1043

Fitur baru
  • Konfigurasi EBS default yang telah dimodifikasi untuk tipe instans EC2 dengan penyimpanan EBS saja. Saat Anda membuat klaster menggunakan Amazon EMR rilis 5.22.0 dan yang lebih baru, jumlah penyimpanan EBS default akan meningkat berdasarkan ukuran instans. Selain itu, kami membagi penyimpanan yang meningkat di beberapa volume, sehingga menghasilkan peningkatan performa IOPS. Jika Anda ingin menggunakan konfigurasi penyimpanan instans EBS yang berbeda, Anda dapat menentukannya ketika Anda membuat klaster EMR atau menambahkan simpul ke klaster yang ada. Untuk informasi selengkapnya tentang jumlah penyimpanan dan jumlah volume yang dialokasikan secara default untuk setiap jenis instans, lihat Default Penyimpanan EBS untuk Instans di Panduan Pengelolaan Amazon EMR.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Spark

    • Memperkenalkan properti konfigurasi baru untuk Spark di YARN, spark.yarn.executor.memoryOverheadFactor. Nilai properti ini adalah faktor menskalakan yang menentukan nilai overhead memori ke persentase memori pelaksana, dengan minimal 384 MB. Jika overhead memori diatur secara eksplisit menggunakan spark.yarn.executor.memoryOverhead, maka properti ini tidak berpengaruh. Nilai default-nya adalah 0.1875, mewakili 18,75%. Default ini, bagi Amazon EMR menghasilkan lebih banyak ruang dalam kontainer YARN untuk overhead memori pelaksana sebesar 10% dari default yang diatur secara internal oleh Spark. Default Amazon EMR sebesar 18,75% secara empiris menunjukkan lebih sedikit terjadinya gagal terkait memori dalam tolok ukur TPC-DS.

    • SPARK-26316 telah di-backporting untuk meningkatkan performa.

  • Di Amazon EMR versi 5.19.0, 5.20.0, dan 5.21.0, label simpul YARN disimpan dalam direktori HDFS. Dalam beberapa situasi, hal ini menyebabkan penundaan mulai simpul inti dan kemudian menyebabkan klaster mengalami habis waktu dan gagal peluncuran. Dimulai dengan Amazon EMR 5.22.0, masalah ini telah diselesaikan. Label simpul YARN disimpan pada disk lokal dari setiap simpul klaster, menghindari dependensi pada HDFS.

Masalah yang diketahui
  • Hue (Diperbaiki di Amazon EMR rilis 5.24.0)

    • Hue yang berjalan di Amazon EMR tidak mendukung Solr. Dimulai dengan rilis Amazon EMR 5.20.0, masalah kesalahan konfigurasi menyebabkan Solr diaktifkan dan pesan kesalahan yang tidak berbahaya muncul mirip dengan yang berikut ini:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Untuk mencegah pesan kesalahan Solr muncul:

      1. Connect ke baris perintah node primer menggunakan SSH.

      2. Gunakan editor teks untuk membuka file hue.ini. Sebagai contoh:

        sudo vim /etc/hue/conf/hue.ini

      3. Cari istilah appblacklist dan ubah baris menjadi yang berikut:

        appblacklist = search
      4. Simpan perubahan dan mulai ulang Hue seperti yang ditunjukkan dalam contoh berikut:

        sudo stop hue; sudo start hue
  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.21.1

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.21.1. Perubahan bersifat relatif terhadap 5.21.0.

Tanggal rilis awal: 18 Juli 2019

Masalah yang diketahui
  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.21.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.21.0. Perubahan bersifat relatif terhadap 5.20.0.

Tanggal rilis awal: 18 Februari 2019

Tanggal terakhir diperbarui: 3 April 2019

Upgrade
  • Flink versi 1.7.0

  • Presto versi 0.215

  • AWS SDK for Java1.11.479

Fitur baru
  • (3 April 2019) Dengan Amazon EMR versi 5.21.0 dan versi setelahnya, Anda dapat mengganti konfigurasi klaster dan menentukan klasifikasi konfigurasi tambahan untuk setiap grup instans di klaster yang berjalan. Anda dapat melakukan ini dengan menggunakan konsol Amazon EMR, AWS Command Line Interface (AWS CLI), atau AWS SDK. Untuk informasi selengkapnya, lihat Menyediakan Konfigurasi untuk Grup Instans dalam Klaster Berjalan.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
Masalah yang diketahui
  • Hue (Diperbaiki di Amazon EMR rilis 5.24.0)

    • Hue yang berjalan di Amazon EMR tidak mendukung Solr. Dimulai dengan rilis Amazon EMR 5.20.0, masalah kesalahan konfigurasi menyebabkan Solr diaktifkan dan pesan kesalahan yang tidak berbahaya muncul mirip dengan yang berikut ini:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Untuk mencegah pesan kesalahan Solr muncul:

      1. Connect ke baris perintah node primer menggunakan SSH.

      2. Gunakan editor teks untuk membuka file hue.ini. Sebagai contoh:

        sudo vim /etc/hue/conf/hue.ini

      3. Cari istilah appblacklist dan ubah baris menjadi yang berikut:

        appblacklist = search
      4. Simpan perubahan dan mulai ulang Hue seperti yang ditunjukkan dalam contoh berikut:

        sudo stop hue; sudo start hue
  • Tez

    • Masalah ini telah diperbaiki di Amazon EMR 5.22.0.

      Ketika Anda terhubung ke UI Tez di http://MasterDNS:8080/TEZ-UI melalui koneksi SSH ke node utama cluster, kesalahan “Operasi adaptor gagal - Server Timeline (ATS) berada di luar jangkauan. Entah karena rusak, atau CORS tidak diaktifkan" muncul, atau tugas tiba-tiba menunjukkan N/A.

      Hal ini disebabkan oleh UI Tez membuat permintaan ke YARN Timeline Server menggunakan localhost bukan nama host dari node utama. Solusinya, skrip tersedia untuk menjalankan sebagai tindakan bootstrap atau langkah. Skrip memperbarui nama host di file configs.env Tez. Untuk informasi selengkapnya dan lokasi skrip, lihat Petunjuk Bootstrap.

  • Di Amazon EMR versi 5.19.0, 5.20.0, dan 5.21.0, label simpul YARN disimpan dalam direktori HDFS. Dalam beberapa situasi, hal ini menyebabkan penundaan mulai simpul inti dan kemudian menyebabkan klaster mengalami habis waktu dan gagal peluncuran. Dimulai dengan Amazon EMR 5.22.0, masalah ini telah diselesaikan. Label simpul YARN disimpan pada disk lokal dari setiap simpul klaster, menghindari dependensi pada HDFS.

  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.20.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.20.0. Perubahan bersifat relatif terhadap 5.19.0.

Tanggal rilis awal: 18 Desember 2018

Tanggal diperbarui: 22 Januari 2019

Upgrade
  • Flink versi 1.6.2

  • HBase versi 1.4.8

  • Hive versi 2.3.4

  • Hue versi 4.3.0

  • MXNet versi 1.3.1

  • Presto versi 0.214

  • Spark versi 2.4.0

  • TensorFlow 1.12.0

  • Tez versi 0.9.1

  • AWS SDK for Java1.11.461

Fitur baru
  • (22 Januari 2019) Kerberos di Amazon EMR telah ditingkatkan untuk mendukung autentikasi prinsipal utama dari KDC eksternal. Ini memusatkan manajemen prinsipal utama karena beberapa klaster dapat berbagi satu KDC eksternal. Selain itu, KDC eksternal dapat memiliki kepercayaan lintas-alam dengan domain Direktori Aktif. Hal ini mengizinkan semua klaster untuk melakukan autentikasi prinsipal utama dari Direktori Aktif. Untuk informasi selengkapnya, lihat Menggunakan Autentikasi Kerberos di Panduan Pengelolaan Amazon EMR.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Default Amazon Linux AMI para Amazon EMR

    • Paket Python3 sudah ditingkatkan dari python 3.4 ke 3.6.

  • EMRFS S3-optimized committer

  • Hive

  • Glue dengan Spark dan Hive

    • Di EMR 5.20.0 atau yang lebih baru, pemangkasan partisi paralel diaktifkan secara otomatis untuk Spark dan Hive saat AWS Glue Data Catalog digunakan sebagai metastore. Perubahan ini secara signifikan mengurangi waktu perencanaan kueri dengan mengeksekusi beberapa permintaan secara paralel untuk mengambil partisi. Jumlah segmen yang dapat dieksekusi secara bersamaan berkisar antara 1 dan 10. Nilai default-nya adalah 5, yang merupakan pengaturan yang disarankan. Anda dapat mengubahnya dengan menentukan properti aws.glue.partition.num.segments dalam klasifikasi konfigurasi hive-site. Jika terjadi throttling, Anda dapat mematikan fitur ini dengan mengubah nilai-nya menjadi 1. Untuk informasi selengkapnya, lihat Struktur Segmen Glue AWS.

Masalah yang diketahui
  • Hue (Diperbaiki di Amazon EMR rilis 5.24.0)

    • Hue yang berjalan di Amazon EMR tidak mendukung Solr. Dimulai dengan rilis Amazon EMR 5.20.0, masalah kesalahan konfigurasi menyebabkan Solr diaktifkan dan pesan kesalahan yang tidak berbahaya muncul mirip dengan yang berikut ini:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      Untuk mencegah pesan kesalahan Solr muncul:

      1. Connect ke baris perintah node primer menggunakan SSH.

      2. Gunakan editor teks untuk membuka file hue.ini. Sebagai contoh:

        sudo vim /etc/hue/conf/hue.ini

      3. Cari istilah appblacklist dan ubah baris menjadi yang berikut:

        appblacklist = search
      4. Simpan perubahan dan mulai ulang Hue seperti yang ditunjukkan dalam contoh berikut:

        sudo stop hue; sudo start hue
  • Tez

    • Masalah ini telah diperbaiki di Amazon EMR 5.22.0.

      Ketika Anda terhubung ke UI Tez di http://MasterDNS:8080/TEZ-UI melalui koneksi SSH ke node utama cluster, kesalahan “Operasi adaptor gagal - Server Timeline (ATS) berada di luar jangkauan. Entah karena rusak, atau CORS tidak diaktifkan" muncul, atau tugas tiba-tiba menunjukkan N/A.

      Hal ini disebabkan oleh UI Tez membuat permintaan ke YARN Timeline Server menggunakan localhost bukan nama host dari node utama. Solusinya, skrip tersedia untuk menjalankan sebagai tindakan bootstrap atau langkah. Skrip memperbarui nama host di file configs.env Tez. Untuk informasi selengkapnya dan lokasi skrip, lihat Petunjuk Bootstrap.

  • Di Amazon EMR versi 5.19.0, 5.20.0, dan 5.21.0, label simpul YARN disimpan dalam direktori HDFS. Dalam beberapa situasi, hal ini menyebabkan penundaan mulai simpul inti dan kemudian menyebabkan klaster mengalami habis waktu dan gagal peluncuran. Dimulai dengan Amazon EMR 5.22.0, masalah ini telah diselesaikan. Label simpul YARN disimpan pada disk lokal dari setiap simpul klaster, menghindari dependensi pada HDFS.

  • Masalah yang diketahui dalam cluster dengan beberapa node primer dan otentikasi Kerberos

    Jika Anda menjalankan cluster dengan beberapa node utama dan otentikasi Kerberos di Amazon EMR rilis 5.20.0 dan yang lebih baru, Anda mungkin mengalami masalah dengan operasi klaster seperti penurunan skala atau pengiriman langkah, setelah klaster berjalan selama beberapa waktu. Periode waktunya tergantung pada masa validitas tiket Kerberos yang Anda tetapkan. Masalah menurunkan skala akan berdampak pada permintaan menurunkan skala otomatis dan permintaan menurunkan skala eksplisit yang Anda kirimkan. Operasi klaster tambahan juga dapat terkena dampak.

    Pemecahan masalah:

    • SSH sebagai hadoop pengguna ke node utama utama dari cluster EMR dengan beberapa node primer.

    • Jalankan perintah berikut untuk memperbarui tiket Kerberos untuk pengguna hadoop.

      kinit -kt <keytab_file> <principal>

      Biasanya, fail keytab terletak di /etc/hadoop.keytab dan file utama-nya dalam bentuk hadoop/<hostname>@<REALM>.

    catatan

    Pemecahan masalah ini akan efektif untuk jangka waktu selama tiket Kerberos berlaku. Durasi ini adalah 10 jam secara default, tetapi dapat dikonfigurasi dengan pengaturan Kerberos Anda. Anda harus kembali menjalankan perintah di atas setelah tiket Kerberos berakhir.

Rilis 5.19.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.19.0. Perubahan bersifat relatif terhadap 5.18.0.

Tanggal rilis awal: 7 November 2018

Tanggal diperbarui: 19 November 2018

Upgrade
  • Hadoop versi 2.8.5

  • Flink versi 1.6.1

  • JupyterHub 0.9.4

  • MXNet versi 1.3.0

  • Presto versi 0.212

  • TensorFlow 1.11.0

  • Zookeeper versi 3.4.13

  • AWS SDK for Java1.11.433

Fitur baru
  • (19 November 2018) EMR Notebooks adalah lingkungan terkelola berbasis Notebook Jupyter. Ini mendukung kernel ajaib Spark untuk PySpark, Spark SQL, Spark R, dan Scala. EMR Notebooks dapat digunakan dengan cluster yang dibuat menggunakan Amazon EMR rilis 5.18.0 dan yang lebih baru. Untuk informasi selengkapnya, lihat Menggunakan EMR Notebooks di Panduan Pengelolaan Amazon EMR.

  • Committer yang dioptimalkan EMRFS S3 tersedia saat menulis file Parquet menggunakan Spark dan EMRFS. Committer ini meningkatkan performa tulis. Untuk informasi selengkapnya, lihat Gunakan committer yang dioptimalkan EMRFS S3.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • YARN

  • Default Amazon Linux AMI para Amazon EMR

    • ruby18, php56, dan gcc48 tidak lagi diinstal secara default. Semua itu dapat diinstal jika diinginkan dengan menggunakan yum.

    • Permata ruby aws-sdk tidak lagi diinstal secara default. Itu dapat diinstal menggunakan gem install aws-sdk, jika diinginkan. Komponen khusus juga bisa diinstal. Sebagai contoh, gem install aws-sdk-s3.

Masalah yang diketahui
  • EMR Notebooks—Dalam beberapa situasi, dengan beberapa editor notebook terbuka, editor notebook mungkin sepertinya tidak dapat terhubung ke klaster. Jika hal ini terjadi, hapus cookie peramban dan kemudian buka kembali editor notebook.

  • CloudWatch ContainerPending Penskalaan Metrik dan Otomatis - (Diperbaiki di 5.20.0) Amazon EMR dapat memancarkan nilai negatif untuk. ContainerPending Jika ContainerPending digunakan dalam aturan penskalaan otomatis, maka penskalaan otomatis tidak akan berperilaku seperti yang diharapkan. Hindari penggunaan ContainerPending dengan penskalaan otomatis.

  • Di Amazon EMR versi 5.19.0, 5.20.0, dan 5.21.0, label simpul YARN disimpan dalam direktori HDFS. Dalam beberapa situasi, hal ini menyebabkan penundaan mulai simpul inti dan kemudian menyebabkan klaster mengalami habis waktu dan gagal peluncuran. Dimulai dengan Amazon EMR 5.22.0, masalah ini telah diselesaikan. Label simpul BEARN disimpan pada disk lokal dari setiap node cluster, menghindari dependensi pada HDFS.

Rilis 5.18.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.18.0. Perubahan bersifat relatif terhadap 5.17.0.

Tanggal rilis awal: 24 Oktober 2018

Upgrade
  • Flink versi 1.6.0

  • HBase versi 1.4.7

  • Presto versi 0.210

  • Spark versi 2.3.2

  • Zeppelin versi 0.8.0

Fitur baru
  • Dimulai dengan Amazon EMR 5.18.0, Anda dapat menggunakan repositori artefak Amazon EMR untuk membangun kode pekerjaan Anda terhadap versi pustaka dan dependensi yang tepat yang tersedia dengan rilis EMR Amazon tertentu. Untuk informasi selengkapnya, lihat Memeriksa dependensi menggunakan repositori artefak Amazon EMR.

Perubahan, penyempurnaan, dan masalah yang diselesaikan

Rilis 5.17.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.17.1. Perubahan bersifat relatif terhadap 5.17.0.

Tanggal rilis awal: 18 Juli 2019

Rilis 5.17.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.17.0. Perubahan bersifat relatif terhadap 5.16.0.

Tanggal rilis awal: 30 Agustus 2018

Upgrade
  • Flink versi 1.5.2

  • HBase versi 1.4.6

  • Presto versi 0.206

Fitur baru
  • Penambahan support untuk Tensorflow. Untuk informasi selengkapnya, lihat TensorFlow.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
Masalah yang diketahui
  • Ketika Anda membuat klaster kerberized dengan Livy yang diinstal, maka Livy akan gagal dengan pesan kesalahan bahwa autentikasi sederhana tidak diaktifkan. Melakukan reboot server Livy akan menyelesaikan masalah ini. Sebagai solusinya, tambahkan langkah selama pembuatan cluster yang berjalan sudo restart livy-server pada node utama.

  • Jika Anda menggunakan AMI Amazon Linux khusus berdasarkan AMI Amazon Linux dengan tanggal pembuatan 2018-08-11, server Oozie gagal memulai. Jika Anda menggunakan Oozie, buat AMI kustom berdasarkan ID AMI Amazon Linux dengan tanggal pembuatan yang berbeda. Anda dapat menggunakan AWS CLI perintah berikut untuk mengembalikan daftar ID Gambar untuk semua AMI Linux Amazon HVM dengan versi 2018.03, bersama dengan tanggal rilis, sehingga Anda dapat memilih AMI Amazon Linux yang sesuai sebagai basis Anda. Ganti MyRegion dengan pengenal Wilayah Anda, seperti us-west-2.

    aws ec2 --region MyRegion describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1

Rilis 5.16.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.16.0. Perubahan bersifat relatif terhadap 5.15.0.

Tanggal rilis awal: 19 Juli 2018

Upgrade
  • Hadoop versi 2.8.4

  • Flink versi 1.5.0

  • Livy versi 0.5.0

  • MXNet versi 1.2.0

  • Phoenix versi 4.14.0

  • Presto versi 0.203

  • Spark versi 2.3.1

  • AWS SDK for Java1.11.336

  • CUDA 9.2

  • Redshift JDBC Driver 1.2.15.1025

Perubahan, penyempurnaan, dan masalah yang diselesaikan
Masalah yang diketahui
  • Versi rilis ini tidak mendukung tipe instans c1.medium atau m1.small. Klaster yang menggunakan salah satu dari tipe instans tersebut gagal memulai. Sebagai solusi, tentukan tipe instans yang berbeda atau gunakan versi rilis yang berbeda.

  • Ketika Anda membuat klaster kerberized dengan Livy yang diinstal, maka Livy akan gagal dengan pesan kesalahan bahwa autentikasi sederhana tidak diaktifkan. Melakukan reboot server Livy akan menyelesaikan masalah ini. Sebagai solusinya, tambahkan langkah selama pembuatan cluster yang berjalan sudo restart livy-server pada node utama.

  • Setelah node primer reboot atau pengontrol instans dimulai ulang, CloudWatch metrik tidak akan dikumpulkan dan fitur penskalaan otomatis tidak akan tersedia di Amazon EMR versi 5.14.0, 5.15.0, atau 5.16.0. Masalah ini telah diperbaiki di Amazon EMR 5.17.0.

Rilis 5.15.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.15.0. Perubahan bersifat relatif terhadap 5.14.0.

Tanggal rilis awal: 21 Juni 2018

Upgrade
  • HBase telah di-upgrade ke 1.4.4

  • Hive telah di-upgrade ke 2.3.3

  • Hue telah di-upgrade ke 4.2.0

  • Oozie telah di-upgrade ke 5.0.0

  • Zookeeper telah di-upgrade ke 3.4.12

  • AWS SDK telah di-upgrade ke 1.11.333

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Hive

  • Hue

    • Pembaruan Hue untuk melakukan autentikasi dengan benar dengan Livy saat Kerberos diaktifkan. Livy sekarang didukung saat menggunakan Kerberos dengan Amazon EMR.

  • JupyterHub

    • Diperbarui JupyterHub sehingga Amazon EMR menginstal pustaka klien LDAP secara default.

    • Perbaikan kesalahan dalam skrip yang menghasilkan sertifikat yang ditandatangani sendiri.

Masalah yang diketahui
  • Versi rilis ini tidak mendukung tipe instans c1.medium atau m1.small. Klaster yang menggunakan salah satu dari tipe instans tersebut gagal memulai. Sebagai solusi, tentukan tipe instans yang berbeda atau gunakan versi rilis yang berbeda.

  • Setelah node primer reboot atau pengontrol instans dimulai ulang, CloudWatch metrik tidak akan dikumpulkan dan fitur penskalaan otomatis tidak akan tersedia di Amazon EMR versi 5.14.0, 5.15.0, atau 5.16.0. Masalah ini telah diperbaiki di Amazon EMR 5.17.0.

Rilis 5.14.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.14.1. Perubahan bersifat relatif terhadap 5.14.0.

Tanggal rilis awal: 17 Oktober 2018

Memperbarui AMI default untuk Amazon EMR untuk mengatasi potensi kerentanan keamanan.

Rilis 5.14.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.14.0. Perubahan bersifat relatif terhadap 5.13.0.

Tanggal rilis awal: 4 Juni 2018

Upgrade
  • Apache Flink telah di-upgrade ke 1.4.2

  • Apache MXNet telah di-upgrade ke 1.1.0

  • Apache Sqoop telah di-upgrade ke 1.4.7

Fitur baru
  • Menambahkan JupyterHub dukungan. Untuk informasi selengkapnya, lihat JupyterHub.

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • EMRFS

    • String userAgent dalam permintaan untuk Amazon S3 telah diperbarui sehingga berisi informasi pengguna dan kelompok prinsipal utama pemohon. Ini bisa digunakan dengan log AWS CloudTrail untuk pelacakan permintaan yang lebih komprehensif.

  • HBase

    • Termasuk HBASE-20447, yang mengatasi masalah yang dapat menyebabkan masalah cache, terutama dengan Wilayah terpisah.

  • MXnet

    • Penambahan perpustakaan OpenCV.

  • Spark

    • Ketika Spark menulis file Parquet ke lokasi Amazon S3 menggunakan EMRFS, FileOutputCommitter algoritme telah diperbarui untuk menggunakan versi 2, bukan versi 1. Hal ini mengurangi jumlah penggantian nama, yang akan meningkatkan performa aplikasi. Perubahan ini tidak mempengaruhi:

      • Aplikasi selain Spark.

      • Aplikasi yang menulis ke sistem file lain, seperti HDFS (yang masih menggunakan versi 1 dari FileOutputCommitter).

      • Aplikasi yang menggunakan format output lain, seperti teks atau csv, yang sudah menggunakan tulis langsung EMRFS.

Masalah yang diketahui
  • JupyterHub

    • Menggunakan klasifikasi konfigurasi untuk menyiapkan JupyterHub dan notebook Jupyter individual saat Anda membuat klaster tidak didukung. Edit file jupyterhub_config.py dan file jupyter_notebook_config.py untuk setiap pengguna secara manual. Untuk informasi selengkapnya, lihat Mengkonfigurasi JupyterHub.

    • JupyterHub gagal memulai pada cluster dalam subnet pribadi, gagal dengan pesan. Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt' Hal ini disebabkan oleh kesalahan dalam skrip yang menghasilkan sertifikat ditandatangani sendiri. Gunakan solusi berikut untuk menghasilkan sertifikat yang ditandatangani sendiri. Semua perintah dijalankan saat terhubung ke node utama.

      1. Salin skrip pembuatan sertifikat dari wadah ke simpul utama:

        sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
      2. Gunakan editor teks untuk mengubah baris 23 untuk mengubah hostname publik menjadi hostname lokal seperti yang ditunjukkan di bawah ini:

        local hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local-hostname)
      3. Jalankan skrip untuk menghasilkan sertifikat ditandatangani sendiri:

        sudo bash ./gen_self_signed_cert.sh
      4. Pindahkan file sertifikat yang menghasilkan skrip untuk direktori /etc/jupyter/conf/:

        sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/

      Anda dapat tail jupyter.log file untuk memverifikasi bahwa JupyterHub dimulai ulang dan mengembalikan kode respons 200. Sebagai contoh:

      tail -f /var/log/jupyter/jupyter.log

      Ini akan menghasilkan respons yang serupa dengan yang berikut ini:

      # [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
  • Setelah node primer reboot atau pengontrol instans dimulai ulang, CloudWatch metrik tidak akan dikumpulkan dan fitur penskalaan otomatis tidak akan tersedia di Amazon EMR versi 5.14.0, 5.15.0, atau 5.16.0. Masalah ini telah diperbaiki di Amazon EMR 5.17.0.

Rilis 5.13.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.13.0. Perubahan bersifat relatif terhadap 5.12.0.

Upgrade
  • Spark telah di-upgrade ke 2.3.0

  • HBase telah di-upgrade ke 1.4.2

  • Presto telah di-upgrade ke 0.194

  • Ditingkatkan ke AWS SDK for Java 1.11.297

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Hive

    • HIVE-15436 telah di-backport. Peningkatan Hive API untuk hanya menghasilkan tampilan.

Masalah yang diketahui
  • MXNet saat ini tidak memiliki pustaka OpenCV.

Rilis 5.12.2

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.12.2. Perubahan bersifat relatif terhadap 5.12.1.

Tanggal rilis awal: 29 Agustus 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Rilis ini membahas potensi kerentanan keamanan.

Rilis 5.12.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.12.1. Perubahan bersifat relatif terhadap 5.12.0.

Tanggal rilis awal: 29 Maret 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Memperbarui kernel Amazon Linux dari DefaultMaZon Linux AMI untuk Amazon EMR untuk mengatasi potensi kerentanan.

Rilis 5.12.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.12.0. Perubahan bersifat relatif terhadap 5.11.1.

Upgrade
Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Hadoop

    • Properti yarn.resourcemanager.decommissioning.timeout telah berubah menjadi yarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs. Anda dapat menggunakan properti ini untuk menyesuaikan menurunkan skala klaster. Untuk informasi selengkapnya, lihat Menurunkan Skala Klaster di Panduan Pengelolaan Amazon EMR.

    • Hadoop CLI menambahkan opsi -d pada perintah (salin) cp, yang menentukan salinan langsung. Anda dapat menggunakan ini untuk menghindari membuat file .COPYING perantara, yang membuat penyalinan data antara Amazon S3 lebih cepat. Untuk informasi selengkapnya, lihat HADOOP-12384.

  • Babi

    • Penambahan klasifikasi konfigurasi pig-env, yang menyederhanakan konfigurasi properti lingkungan Pig. Untuk informasi selengkapnya, lihat Konfigurasikan aplikasi.

  • Presto

    • Penambahan konfigurasi klasifikasi presto-connector-redshift, yang dapat Anda gunakan untuk mengkonfigurasi nilai-nilai dalam file konfigurasi redshift.properties Presto. Untuk informasi selengkapnya, lihat Konektor Redshift dalam dokumentasi Presto, dan Konfigurasikan aplikasi.

    • Support presto untuk EMRFS telah ditambahkan dan menjadi konfigurasi default. Rilis Amazon EMR sebelumnya menggunakan PrestOS3FileSystem, yang merupakan satu-satunya pilihan. Untuk informasi selengkapnya, lihat Konfigurasi EMRFS dan PrestOS3 FileSystem.

      catatan

      Jika Anda menanyakan data yang mendasarinya di Amazon S3 dengan Amazon EMR versi 5.12.0, kesalahan Presto dapat terjadi. Hal ini karena Presto gagal untuk mengambil nilai klasifikasi konfigurasi dari emrfs-site.xml. Sebagai solusinya, buat emrfs subdirektori di bawah usr/lib/presto/plugin/hive-hadoop2/ dan buat symlink ke file yang adausr/lib/presto/plugin/hive-hadoop2/emrfs. /usr/share/aws/emr/emrfs/conf/emrfs-site.xml Kemudian restart proses presto-server (sudo presto-server stopdiikuti oleh). sudo presto-server start

  • Percikan

Masalah yang diketahui
  • MXNet tidak menyertakan perpustakaan OpenCV.

  • SparkR ini tidak tersedia untuk cluster yang dibuat menggunakan AMI kustom karena R tidak diinstal secara default pada node cluster.

Rilis 5.11.3

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.11.3. Perubahan bersifat relatif terhadap 5.11.2.

Tanggal rilis awal: 18 Juli 2019

Rilis 5.11.2

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.11.2. Perubahan bersifat relatif terhadap 5.11.1.

Tanggal rilis awal: 29 Agustus 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Rilis ini membahas potensi kerentanan keamanan.

Rilis 5.11.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.11.1. Perubahan relatif terhadap rilis Amazon EMR 5.11.0.

Tanggal rilis awal: 22 Januari 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan

Masalah yang diketahui

  • MXNet tidak menyertakan perpustakaan OpenCV.

  • Hive 2.3.2 mengatur hive.compute.query.using.stats=true secara default. Hal ini menyebabkan kueri mengambil data statistik yang ada bukan secara langsung dari data, yang dapat membingungkan. Sebagai contoh, jika Anda memiliki tabel dengan hive.compute.query.using.stats=true dan mengunggah file baru ke LOCATION tabel, menjalankan kueri SELECT COUNT(*) pada tabel akan menghasilkan hitungan dari statistik, bukan mengambil dari baris yang ditambahkan.

    Sebagai solusinya, gunakan perintah ANALYZE TABLE untuk mengumpulkan statistik baru, atau atur hive.compute.query.using.stats=false. Untuk informasi lebih lanjut, lihat Statistik dalam Hive dalam dokumentasi Apache Hive.

Rilis 5.11.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.11.0. Perubahan relatif terhadap rilis Amazon EMR 5.10.0.

Upgrade

Aplikasi dan komponen berikut telah ditingkatkan dalam rilis ini untuk menyertakan versi berikut.

  • Hive 2.3.2

  • Spark versi 2.2.1

  • SDK for Java versi 1.11.238

Fitur baru

Masalah yang diketahui

  • MXNet tidak menyertakan perpustakaan OpenCV.

  • Hive 2.3.2 mengatur hive.compute.query.using.stats=true secara default. Hal ini menyebabkan kueri mengambil data statistik yang ada bukan secara langsung dari data, yang dapat membingungkan. Sebagai contoh, jika Anda memiliki tabel dengan hive.compute.query.using.stats=true dan mengunggah file baru ke LOCATION tabel, menjalankan kueri SELECT COUNT(*) pada tabel akan menghasilkan hitungan dari statistik, bukan mengambil dari baris yang ditambahkan.

    Sebagai solusinya, gunakan perintah ANALYZE TABLE untuk mengumpulkan statistik baru, atau atur hive.compute.query.using.stats=false. Untuk informasi lebih lanjut, lihat Statistik dalam Hive dalam dokumentasi Apache Hive.

Rilis 5.10.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.10.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.9.0.

Upgrade

Aplikasi dan komponen berikut telah ditingkatkan dalam rilis ini untuk menyertakan versi berikut.

  • AWS SDK for Java1.11.221

  • Hive versi 2.3.1

  • Presto versi 0.187

Fitur baru

Perubahan, penyempurnaan, dan masalah yang diselesaikan

  • Presto

  • Spark

    • SPARK-20640 yang telah di-backport, yang membuat waktu habis rpc dan coba lagi untuk nilai registrasi kocok yang dapat dikonfigurasi menggunakan properti spark.shuffle.registration.timeout dan spark.shuffle.registration.maxAttempts.

    • Backported SPARK-21549, yang mengoreksi kesalahan yang terjadi saat menulis kustom ke lokasi non-HDFS. OutputFormat

  • Hadoop-13270 yang telah di-backport.

  • Perpustakaan Numpy, Scipy, dan Matplotlib telah dihapus dari base Amazon EMR AMI. Jika perpustakaan tersebut diperlukan untuk aplikasi Anda, mereka tersedia di repositori aplikasi, sehingga Anda dapat menggunakan tindakan bootstrap untuk menginstalnya pada semua simpul menggunakan yum install.

  • Amazon EMR base AMI tidak lagi memiliki paket RPM aplikasi yang disertakan, sehingga paket RPM tidak lagi ada pada simpul klaster. AMI kustom dan Amazon EMR base AMI sekarang me-referensi repositori paket RPM di Amazon S3.

  • Karena perkenalan penagihan per-detik di Amazon EC2, Perilaku menurunkan skala default sekarang Dihentikan saat tugas selesai bukan Dihentikan pada jam instans. Untuk informasi lebih lanjut, lihat Konfigurasikan gugus skala bawah.

Masalah yang diketahui

  • MXNet tidak menyertakan perpustakaan OpenCV.

  • Hive 2.3.1 mengatur hive.compute.query.using.stats=true secara default. Hal ini menyebabkan kueri mengambil data statistik yang ada bukan secara langsung dari data, yang dapat membingungkan. Sebagai contoh, jika Anda memiliki tabel dengan hive.compute.query.using.stats=true dan mengunggah file baru ke LOCATION tabel, menjalankan kueri SELECT COUNT(*) pada tabel akan menghasilkan hitungan dari statistik, bukan mengambil dari baris yang ditambahkan.

    Sebagai solusinya, gunakan perintah ANALYZE TABLE untuk mengumpulkan statistik baru, atau atur hive.compute.query.using.stats=false. Untuk informasi lebih lanjut, lihat Statistik dalam Hive dalam dokumentasi Apache Hive.

Rilis 5.9.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.9.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.8.0.

Tanggal rilis: 5 Oktober 2017

Pembaruan fitur terbaru: 12 Oktober, 2017

Upgrade

Aplikasi dan komponen berikut telah ditingkatkan dalam rilis ini untuk menyertakan versi berikut.

  • AWS SDK for Java Versi 1.11.183

  • Flink versi 1.3.2

  • Hue versi 4.0.1

  • Pig versi 0.17.0

  • Presto versi 0.184

Fitur baru

  • Penambahan support Livy (versi 0.4.0-incubating). Untuk informasi selengkapnya, lihat Apache Livy.

  • Penambahan support untuk Hue Notebook untuk Spark.

  • Penambahan support untuk instans Amazon EC2 i3-series (12 Oktober, 2017).

Perubahan, penyempurnaan, dan masalah yang diselesaikan

  • Spark

    • Penambahan serangkaian fitur baru yang membantu memastikan Spark menangani penghentian simpul karena pengubahan ukuran manual atau permintaan kebijakan penskalaan otomatis dengan lebih baik. Untuk informasi selengkapnya, lihat Mengkonfigurasi perilaku dekomisioning node.

    • SSL digunakan sebagai ganti 3DES untuk enkripsi in-transit untuk layanan transfer blok, yang meningkatkan kinerja saat menggunakan tipe instans Amazon EC2 dengan AES-NI.

    • SPARK-21494 yang telah di-backport.

  • Zeppelin

  • HBase

    • Ditambahkan patch HBASE-18533, yang memungkinkan nilai tambahan untuk konfigurasi HBase BucketCache menggunakan klasifikasi konfigurasi. hbase-site

  • Hue

    • Penambahan support Katalog Glue Data AWS untuk editor kueri Hive di Hue.

    • Secara default, pengguna super di Hue dapat mengakses semua file yang diizinkan untuk diakses oleh peran Amazon EMR IAM. Pengguna yang baru dibuat tidak secara otomatis memiliki izin untuk mengakses browser file Amazon S3 dan harus mengaktifkan izin filebrowser.s3_access untuk grup mereka.

  • Masalah yang menyebabkan data JSON mendasar yang dibuat menggunakan Katalog Data Glue AWS tidak dapat diakses telah diselesaikan.

Masalah yang diketahui

  • Peluncuran klaster gagal saat semua aplikasi diinstal dan ukuran volume akar Amazon EBS default tidak diubah. Sebagai solusinya, gunakan perintah aws emr create-cluster dari AWS CLI dan tentukan parameter --ebs-root-volume-size yang lebih besar.

  • Hive 2.3.0 mengatur hive.compute.query.using.stats=true secara default. Hal ini menyebabkan kueri mengambil data statistik yang ada bukan secara langsung dari data, yang dapat membingungkan. Sebagai contoh, jika Anda memiliki tabel dengan hive.compute.query.using.stats=true dan mengunggah file baru ke LOCATION tabel, menjalankan kueri SELECT COUNT(*) pada tabel akan menghasilkan hitungan dari statistik, bukan mengambil dari baris yang ditambahkan.

    Sebagai solusinya, gunakan perintah ANALYZE TABLE untuk mengumpulkan statistik baru, atau atur hive.compute.query.using.stats=false. Untuk informasi lebih lanjut, lihat Statistik dalam Hive dalam dokumentasi Apache Hive.

Rilis 5.8.2

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.8.2. Perubahan relatif dilakukan terhadap 5.8.1.

Tanggal rilis awal: 29 Maret 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Memperbarui kernel Amazon Linux dari DefaultMaZon Linux AMI untuk Amazon EMR untuk mengatasi potensi kerentanan.

Rilis 5.8.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.8.1. Perubahan relatif terhadap rilis Amazon EMR 5.8.0.

Tanggal rilis awal: 22 Januari 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan

Rilis 5.8.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR versi 5.8.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.7.0.

Tanggal rilis awal: 10 Agustus 2017

Pembaruan fitur terakhir: 25 September 2017

Upgrade

Aplikasi dan komponen berikut telah ditingkatkan dalam rilis ini untuk menyertakan versi berikut:

  • AWS SDK 1.11.160

  • Flink versi 1.3.1

  • Hive versi 2.3.0. Untuk informasi lebih lanjut, lihat Catatan rilis di situs Apache Hive.

  • Spark versi 2.2.0. Untuk informasi lebih lanjut, lihat Catatan rilis di situs Apache Spark.

Fitur baru

  • Penambahan support untuk melihat riwayat aplikasi (25 September 2017). Untuk informasi lebih lanjut, lihat Melihat riwayat aplikasi di Amazon EMR.

Perubahan, penyempurnaan, dan masalah yang diselesaikan

  • Integrasi dengan AWS Glue Data Catalog

  • Penambahan Riwayat aplikasi ke detail klaster, yang memungkinkan Anda melihat data riwayat untuk aplikasi YARN dan detail tambahan untuk aplikasi Spark. Untuk informasi lebih lanjut, lihat Lihat riwayat aplikasi di Amazon EMR.

  • Oozie

  • Rona

  • HBase

    • Penambahan patch untuk mengekspos waktu mulai server master HBase melalui Java Management Extensions (JMX) menggunakan getMasterInitializedTime.

    • Penambahan patch yang meningkatkan waktu mulai klaster.

Masalah yang diketahui

  • Peluncuran klaster gagal saat semua aplikasi diinstal dan ukuran volume akar Amazon EBS default tidak diubah. Sebagai solusinya, gunakan perintah aws emr create-cluster dari AWS CLI dan tentukan parameter --ebs-root-volume-size yang lebih besar.

  • Hive 2.3.0 mengatur hive.compute.query.using.stats=true secara default. Hal ini menyebabkan kueri mengambil data statistik yang ada bukan secara langsung dari data, yang dapat membingungkan. Sebagai contoh, jika Anda memiliki tabel dengan hive.compute.query.using.stats=true dan mengunggah file baru ke LOCATION tabel, menjalankan kueri SELECT COUNT(*) pada tabel akan menghasilkan hitungan dari statistik, bukan mengambil dari baris yang ditambahkan.

    Sebagai solusinya, gunakan perintah ANALYZE TABLE untuk mengumpulkan statistik baru, atau atur hive.compute.query.using.stats=false. Untuk informasi selengkapnya, lihat Statistik di Hive di dokumentasi Apache Hive.

  • Spark—Saat menggunakan Spark, ada masalah kebocoran file handler dengan daemon apppusher, yang dapat muncul untuk tugas Spark yang berjalan lama setelah beberapa jam atau hari. Untuk memperbaiki masalah ini, hubungkan ke simpul utama dan tipe sudo /etc/init.d/apppusher stop. Ini akan menghentikan daemon apppusher, yang akan dimulai ulang secara otomatis oleh Amazon EMR.

  • Riwayat aplikasi

    • Data historis untuk eksekutor Spark yang mati tidak tersedia.

    • Riwayat aplikasi ini tidak tersedia untuk cluster yang menggunakan konfigurasi keamanan untuk mengaktifkan enkripsi dalam penerbangan.

Rilis 5.7.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.7.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.6.0.

Tanggal rilis: 13 Juli 2017

Upgrade

  • Flink versi 1.3.0

  • Phoenix versi 4.11.0

  • Zeppelin versi 0.7.2

Fitur baru

  • Ditambahkan kemampuan untuk menentukan kustom Amazon Linux AMI saat Anda membuat sebuah cluster. Untuk informasi lebih lanjut, lihat Menggunakan AMI khusus.

Perubahan, penyempurnaan, dan masalah yang diselesaikan

  • HBase

  • Presto - penambahan kemampuan untuk mengonfigurasi node.properties.

  • YARN - penambahan kemampuan untuk mengonfigurasi container-log4j.properties

  • Sqoop - backport SQOOP-2880, yang memperkenalkan argumen yang memungkinkan Anda untuk mengatur direktori sementara Sqoop.

Rilis 5.6.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.6.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.5.0.

Tanggal rilis: 5 Juni 2017

Upgrade

  • Flink versi 1.2.1

  • HBase versi 1.3.1

  • Mahout versi 0.13.0. Ini adalah versi Mahout pertama yang men-support Spark 2.x di Amazon EMR versi 5.0 dan versi setelahnya.

  • Spark versi 2.1.1

Perubahan, penyempurnaan, dan masalah yang diselesaikan

  • Presto

    • Penambahan kemampuan untuk mengaktifkan komunikasi aman SSL/TLS antara simpul Presto dengan mengaktifkan enkripsi in-transit menggunakan konfigurasi keamanan. Untuk informasi lebih lanjut, lihat Enkripsi data dalam perjalanan.

    • Backport Presto 7661, yang menambahkan VERBOSE opsi untuk EXPLAIN ANALYZE pernyataan untuk melaporkan lebih rinci, statistik tingkat rendah tentang rencana query.

Rilis 5.5.3

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.5.3. Perubahan relatif dilakukan terhadap 5.5.2.

Tanggal rilis awal: 29 Agustus 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Rilis ini membahas potensi kerentanan keamanan.

Rilis 5.5.2

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 5.5.2. Perubahan relatif dilakukan terhadap 5.5.1.

Tanggal rilis awal: 29 Maret 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Memperbarui kernel Amazon Linux dari DefaultMaZon Linux AMI untuk Amazon EMR untuk mengatasi potensi kerentanan.

Rilis 5.5.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.5.1. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.5.0.

Tanggal rilis awal: 22 Januari 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan

Rilis 5.5.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.5.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.4.0.

Tanggal rilis: 26 April 2017

Upgrade

  • Hue versi 3.12

  • Presto versi 0.170

  • Zeppelin versi 0.7.1

  • ZooKeeper 3.4.10

Perubahan, penyempurnaan, dan masalah yang diselesaikan

  • Percikan

  • Flink

    • Flink sekarang dibangun dengan Scala 2.11. Jika Anda menggunakan API dan perpustakaan Scala, kami menyarankan Anda menggunakan Scala 2.11 dalam proyek Anda.

    • Mengatasi masalah di mana default HADOOP_CONF_DIR dan YARN_CONF_DIR tidak diatur dengan benar, sehingga start-scala-shell.sh gagal bekerja. Juga penambahan kemampuan untuk mengatur nilai ini menggunakan env.hadoop.conf.dir dan env.yarn.conf.dir di /etc/flink/conf/flink-conf.yaml atau klasifikasi konfigurgasi flink-conf.

    • Perintah spesifik EMR baru diperkenalkan, flink-scala-shell sebagai wrapper untuk start-scala-shell.sh. Kami menyarankan untuk menggunakan perintah ini, bukan start-scala-shell. Perintah baru menyederhanakan eksekusi. Sebagai contoh, flink-scala-shell -n 2 memulai shell Flink Scala dengan tugas paralelisme 2.

    • Perintah spesifik EMR baru diperkenalkan, flink-yarn-session sebagai wrapper untuk yarn-session.sh. Kami menyarankan untuk menggunakan perintah ini, bukan yarn-session. Perintah baru menyederhanakan eksekusi. Misalnya, flink-yarn-session -d -n 2 memulai sesi Flink yang berjalan lama dalam keadaan terlepas dengan dua pengelola tugas.

    • Ditangani (FLINK-6125) commons httpclient tidak berbayang lagi di Flink 1.2.

  • Presto

    • Penambahan support untuk autentikasi LDAP. Menggunakan LDAP dengan Presto on Amazon EMR mengharuskan Anda mengaktifkan akses HTTPS untuk koordinator Presto (http-server.https.enabled=true dalam config.properties). Untuk detail konfigurasi, lihat Autentikasi LDAP dalam dokumentasi Presto.

    • Penambahan support untuk SHOW GRANTS.

  • Amazon EMR Basis Linux AMI

    • Rilis Amazon EMR sekarang berbasis Amazon Linux 2017.03. Untuk informasi lebih lanjut, lihat Catatan rilis Amazon Linux AMI 2017.03.

    • Menghapus Python 2.6 dari citra Amazon EMR base Linux. Python 2.7 dan 3.4 diinstal secara default. Anda dapat menginstal Python 2.6 secara manual jika diperlukan.

Rilis 5.4.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.4.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.3.0.

Tanggal rilis: 08 Maret 2017

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Meningkatkan ke Flink 1.2.0

  • Meningkatkan ke Hbase 1.3.0

  • Phoenix di-upgrade ke 4.9.0

    catatan

    Jika Anda melakukan upgrade dari Amazon EMR versi sebelumnya ke Amazon EMR versi 5.4.0 atau yang lebih baru dan menggunakan pengindeksan sekunder, lakukan upgrade indeks lokal seperti yang dijelaskan dalam dokumentasi Apache Phoenix. Amazon EMR menghapus konfigurasi yang diperlukan dari klasifikasi hbase-site, tetapi indeks perlu diisi ulang. Upgrade indeks online dan offline didukung. Default-nya adalah upgrade online, yang berarti indeks diisi ulang saat menginisialisasi dari klien Phoenix versi 4.8.0 atau lebih tinggi. Untuk menentukan upgrade offline, atur konfigurasi phoenix.client.localIndexUpgrade ke SALAH dalam klasifikasi phoenix-site, lalu lakukan SSH ke simpul utama untuk menjalankan psql [zookeeper] -1.

  • Presto di-upgrade ke 0.166

  • Zeppelin di-upgrade ke 0.7.0

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk rilis label emr-5.4.0:

Rilis 5.3.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.3.1. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.3.0.

Tanggal rilis: 7 Februari 2017

Perubahan kecil untuk backport Zeppelin patch dan memperbarui AMI default untuk Amazon EMR.

Rilis 5.3.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.3.0. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.2.1.

Tanggal rilis: 26 Januari 2017

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Meningkatkan ke Hive 2.1.1

  • Hue di-upgrade ke 3.11.0

  • Spark di-upgrade ke 2.1.0

  • Oozie di-upgrade ke 4.3.0

  • Flink di-upgrade ke 1.1.4

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk rilis label emr-5.3.0:

  • Menambahkan patch ke Hue yang mengizinkan Anda menggunakan pengaturan interpreters_shown_on_wheel untuk mengonfigurasi apa yang akan ditampilkan interpreter pertama kali di roda pilihan Notebook, terlepas dari urutannya dalam file hue.ini.

  • Menambahkan hive-parquet-logging klasifikasi konfigurasi, yang dapat Anda gunakan untuk mengkonfigurasi nilai-nilai di Hive parquet-logging.properties file.

Rilis 5.2.2

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.2.2. Perubahan relatif dilakukan terhadap rilis Amazon EMR 5.2.1.

Tanggal rilis: 2 Mei 2017

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Backport PERCIKAN-194459, yang membahas masalah saat membaca dari tabel ORC dengan kolom char/varchar dapat gagal.

Rilis 5.2.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.2.1. Perubahan relatif dilakukan terhadap Amazon EMR rilis 5.2.0.

Tanggal rilis: 29 Desember 2016

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Upgrade ke Presto 0.157.1. Untuk informasi lebih lanjut, lihat Catatan rilis presto dalam dokumentasi Presto.

  • Zookeeper di-upgrade 3.4.9. Untuk informasi selengkapnya, lihat catatan ZooKeeper rilis dalam ZooKeeper dokumentasi Apache.

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk rilis label emr-5.2.1:

  • Ditambahkan dukungan untuk Amazon EC2 m4.16xlarge contoh jenis di Amazon EMR versi 4.8.3 dan kemudian, tidak termasuk 5.0.0, 5.0.3, dan 5.2.0.

  • Rilis Amazon EMR sekarang berbasis Amazon Linux 2016.09. Untuk informasi selengkapnya, lihat https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

  • Lokasi dari jalur konfigurasi Flink dan YARN sekarang diatur secara default di /etc/default/flink bahwa Anda tidak perlu mengatur variabel lingkungan FLINK_CONF_DIR dan HADOOP_CONF_DIR ketika menjalankan flink atau yarn-session.sh skrip pemandu untuk melancarkan pekerjaan Flink.

  • Menambahkan dukungan untuk FlinkKinesisConsumer kelas.

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Memperbaiki masalah di Hadoop di mana ReplicationMonitor utas bisa macet untuk waktu yang lama karena perlombaan antara replikasi dan penghapusan file yang sama di cluster besar.

  • Memperbaiki masalah saat ControlledJob #toString gagal dengan pengecualian penunjuk nol (NPE) saat status pekerjaan tidak berhasil diperbarui.

Rilis 5.2.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.2.0. Perubahan relatif dilakukan terhadap Amazon EMR rilis 5.1.0.

Tanggal rilis: 21 November 2016

Perubahan dan penyempurnaan

Perubahan dan penyempurnaan berikut tersedia dalam rilis ini:

  • Menambahkan mode penyimpanan Amazon S3 untuk HBase.

  • Memungkinkan Anda menentukan lokasi Amazon S3 untuk rootdir HBase. Untuk informasi lebih lanjut, lihat HBase di Amazon S3.

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Meningkatkan ke Spark 2.0.2

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Memperbaiki masalah dengan /mnt dibatasi ke 2 TB pada jenis instans EBS saja.

  • Memperbaiki masalah dengan instance-controller dan log logpusher menjadi output ke berkas.out sesuai mereka bukan untuk log4j dikonfigurasi file.log normal mereka, yang memutar per jam. File.out tidak berputar, jadi ini akhirnya akan mengisi partisi /emr. Masalah ini hanya mempengaruhi jenis instans mesin virtual perangkat keras (HVM).

Rilis 5.1.0

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.1.0. Perubahan relatif terhadap rilis Amazon EMR 5.0.0.

Tanggal rilis: 03 November 2016

Perubahan dan penyempurnaan

Perubahan dan penyempurnaan berikut tersedia dalam rilis ini:

  • Menambahkan dukungan untuk 1.1.3.

  • Presto telah ditambahkan sebagai opsi di bagian notebook Hue.

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Upgrade ke HBase 1.2.3

  • Upgrade ke Zeppelin 0.6.2

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Memperbaiki masalah dengan kueri Tez di Amazon S3 dengan file ORC tidak berfungsi serta versi Amazon EMR 4.x sebelumnya.

Rilis 5.0.3

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 5.0.3. Perubahan relatif dilakukan terhadap Amazon EMR rilis 5.0.0.

Tanggal rilis: 24 Oktober 2016

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Upgrade ke Hadoop 2.7.3

  • Presto di-upgrade ke 0.152.3, yang mencakup support untuk antarmuka web Presto. Anda dapat mengakses antarmuka web Presto pada koordinator Presto dengan menggunakan port 8889. Untuk informasi lebih lanjut tentang antarmuka web Presto, lihat Antarmuka web dalam dokumentasi Presto.

  • Spark di-upgrade ke 2.0.1

  • Rilis Amazon EMR sekarang berbasis Amazon Linux 2016.09. Untuk informasi selengkapnya, lihat https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Rilis 5.0.0

Tanggal rilis: 27 Juli 2016

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Meningkatkan ke Hive 2.1

  • Presto di-upgrade ke 0.150

  • Spark di-upgrade ke 2.0

  • Hue di-upgrade ke 3.10.0

  • Pig di-upgrade ke 0.16.0

  • Tez di-upgrade ke 0.8.4

  • Zeppelin di-upgrade ke 0.6.1

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk label rilis emr-5.0.0 atau lebih besar:

  • Amazon EMR mendukung versi open-source terbaru dari Hive (versi 2.1) dan Pig (versi 0.16.0). Jika Anda pernah menggunakan Hive atau Pig di Amazon EMR di masa lalu, ini dapat memengaruhi beberapa kasus penggunaan. Untuk informasi lebih lanjut, lihat Hive dan Pig.

  • Mesin eksekusi default untuk Hive dan Pig sekarang adalah Tez. Untuk mengubah ini, Anda akan mengedit nilai yang sesuai dalam klasifikasi konfigurasi hive-site dan pig-properties, masing-masing.

  • Fitur langkah debug yang disempurnakan telah ditambahkan, yang mengizinkan Anda untuk melihat akar masalah gagal langkah jika layanan dapat menentukan penyebabnya. Untuk informasi lebih lanjut, lihat Peningkatan debugging langkah dalam Panduan Manajemen Amazon EMR.

  • Aplikasi yang sebelumnya diakhiri dengan "-Sandbox" tidak lagi menggunakan akhiran itu. Ini akan merusak otomatisasi Anda, misalnya, jika Anda menggunakan skrip untuk melakukan peluncuran klaster dengan aplikasi ini. Tabel berikut menunjukkan nama-nama aplikasi di Amazon EMR 4.7.2 vs Amazon EMR 5.0.0.

    Perubahan nama aplikasi
    Amazon EMR 4.7.2 Amazon EMR 5.0.0
    Oozie-Sandbox Oozie
    Presto-Sandbox Presto
    Sqoop-Sandbox Sqoop
    Zeppelin-Sandbox Zeppelin
    ZooKeeper-Kotak pasir ZooKeeper
  • Spark sekarang dikompilasi untuk Scala 2.11.

  • Java 8 sekarang menjadi default JVM. Semua aplikasi berjalan menggunakan runtime Java 8. Tidak ada perubahan untuk setiap aplikasi byte kode target. Sebagian besar aplikasi terus menargetkan Java 7.

  • Zeppelin sekarang menyertakan fitur autentikasi. Untuk informasi selengkapnya, lihat Zeppelin.

  • Menambahkan support untuk konfigurasi keamanan, yang mengizinkan Anda membuat dan menerapkan opsi enkripsi dengan lebih mudah. Untuk informasi selengkapnya tentang enkripsi saat istirahat, lihat.

Rilis 4.9.5

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.9.5. Perubahan relatif dilakukan terhadap 4.9.4.

Tanggal rilis awal: 29 Agustus 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • HBase

    • Rilis ini membahas potensi kerentanan keamanan.

Rilis 4.9.4

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.9.4. Perubahan relatif dilakukan terhadap 4.9.3.

Tanggal rilis awal: 29 Maret 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan
  • Memperbarui kernel Amazon Linux dari DefaultMaZon Linux AMI untuk Amazon EMR untuk mengatasi potensi kerentanan.

Rilis 4.9.3

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.9.3. Perubahan relatif dilakukan terhadap rilis Amazon EMR 4.9.2.

Tanggal rilis awal: 22 Januari 2018

Perubahan, penyempurnaan, dan masalah yang diselesaikan

Rilis 4.9.2

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.9.2. Perubahan relatif dilakukan terhadap rilis Amazon EMR 4.9.1.

Tanggal rilis: 13 Juli 2017

Perubahan kecil, perbaikan bug, dan penyempurnaan dibuat dalam rilis ini.

Rilis 4.9.1

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.9.1. Perubahan relatif dilakukan terhadap rilis Amazon EMR 4.8.4.

Tanggal rilis: 10 April 2017

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Backport dari HIVE-9976 dan HIVE-10106

  • Memperbaiki masalah di YARN di mana sejumlah besar node (lebih dari 2.000) dan kontainer (lebih besar dari 5.000) akan menyebabkan kesalahan kehabisan memori, misalnya: "Exception in thread 'main' java.lang.OutOfMemoryError".

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk label rilis emr-4.9.1:

Rilis 4.8.4

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.8.4. Perubahan relatif terhadap rilis Amazon EMR 4.8.3.

Tanggal rilis: 7 Feb 2017

Perubahan kecil, perbaikan bug, dan penyempurnaan dibuat dalam rilis ini.

Rilis 4.8.3

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.8.3. Perubahan relatif dilakukan terhadap rilis Amazon EMR 4.8.2.

Tanggal rilis: 29 Desember 2016

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Upgrade ke Presto 0.157.1. Untuk informasi lebih lanjut, lihat Catatan rilis presto dalam dokumentasi Presto.

  • Spark di-upgrade ke 1.6.3. Untuk informasi lebih lanjut, lihat Catatan rilis Spark dalam dokumentasi Apache Spark.

  • Upgrade ke ZooKeeper 3.4.9. Untuk informasi selengkapnya, lihat catatan ZooKeeper rilis dalam ZooKeeper dokumentasi Apache.

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk label rilis emr-4.8.3:

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Memperbaiki masalah di Hadoop di mana ReplicationMonitor utas bisa macet untuk waktu yang lama karena perlombaan antara replikasi dan penghapusan file yang sama di cluster besar.

  • Memperbaiki masalah saat ControlledJob #toString gagal dengan pengecualian penunjuk nol (NPE) saat status pekerjaan tidak berhasil diperbarui.

Rilis 4.8.2

Catatan rilis berikut mencakup informasi untuk rilis Amazon EMR 4.8.2. Perubahan relatif dilakukan terhadap rilis Amazon EMR 4.8.0.

Tanggal rilis: 24 Oktober 2016

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Upgrade ke Hadoop 2.7.3

  • Presto di-upgrade ke 0.152.3, yang mencakup support untuk antarmuka web Presto. Anda dapat mengakses antarmuka web Presto pada koordinator Presto dengan menggunakan port 8889. Untuk informasi lebih lanjut tentang antarmuka web Presto, lihat Antarmuka web dalam dokumentasi Presto.

  • Rilis Amazon EMR sekarang berbasis Amazon Linux 2016.09. Untuk informasi selengkapnya, lihat https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/.

Rilis 4.8.0

Tanggal rilis: 7 September 2016

Upgrade

Upgrade berikut tersedia dalam rilis ini:

  • Meningkatkan ke HBase 1.2.2

  • Presto-Sandbox di-upgrade ke 0.151

  • Tez di-upgrade ke 0.8.4

  • Zeppelin-Sandbox di-upgrade ke 0.6.1

Perubahan dan penyempurnaan

Berikut ini adalah perubahan yang dibuat untuk rilis Amazon EMR untuk rilis label emr-4.8.0:

  • Memperbaiki masalah di YARN di mana ApplicationMaster akan mencoba membersihkan wadah yang tidak ada lagi karena instance-nya telah dihentikan.

  • Memperbaiki URL hive-server2 untuk tindakan Hive2 dalam instans Oozie.

  • Menambahkan support untuk katalog Presto tambahan.

  • Melakukan backporting patch: HIVE-8948, HIVE-12679, HIVE-13405, PHOENIX-3116, HADOOP-12689

  • Menambahkan support untuk konfigurasi keamanan, yang mengizinkan Anda membuat dan menerapkan opsi enkripsi dengan lebih mudah. Untuk informasi selengkapnya tentang enkripsi saat istirahat, lihat.

Rilis 4.7.2

Catatan rilis berikut mencakup informasi untuk Amazon EMR 4.7.2.

Tanggal rilis: 15 Juli 2016

Fitur

Fitur berikut tersedia dalam rilis ini:

  • Upgrade ke Mahout 0.12.2

  • Presto di-upgrade ke 0.148

  • Spark di-upgrade ke 1.6.2

  • Anda sekarang dapat membuat AWSCredentialsProvider untuk digunakan dengan EMRFS menggunakan URI sebagai parameter. Untuk informasi selengkapnya, lihat Membuat AWSCredentialsProvider untuk EMRFS.

  • EMRFS sekarang memungkinkan pengguna untuk mengonfigurasi titik akhir DynamoDB kustom untuk metadata Tampilan Konsisten mereka menggunakan properti fs.s3.consistent.dynamodb.endpoint di emrfs-site.xml.

  • Menambahkan skrip di /usr/bin yang disebut spark-example, yang membungkus /usr/lib/spark/spark/bin/run-example sehingga Anda dapat menjalankan contoh secara langsung. Misalnya, untuk menjalankan SparkPi contoh yang disertakan dengan distribusi Spark, Anda dapat menjalankan spark-example SparkPi 100 dari baris perintah atau menggunakan command-runner.jar sebagai langkah di API.

Masalah yang diketahui yang dipecahkan dari rilis sebelumnya

  • Memperbaiki masalah di mana Oozie tidak menempatkan spark-assembly.jar di lokasi yang benar saat Spark juga diinstal, yang mengakibatkan terjadinya gagal peluncuran aplikasi Spark dengan Oozie.

  • Memperbaiki masalah dengan pengelogan berbasis Spark Log4J di wadah BEARN.

Rilis 4.7.1

Tanggal rilis: 10 Juni 2016

Masalah yang diketahui yang dipecahkan dari rilis sebelumnya

  • Memperbaiki masalah yang memperpanjang waktu startup klaster yang diluncurkan di VPC dengan subnet privat. Bug tersebut hanya memengaruhi klaster yang diluncurkan dengan rilis Amazon EMR 4.7.0.

  • Memperbaiki masalah yang tidak ditangani dengan benar daftar file di Amazon EMR untuk cluster yang diluncurkan dengan rilis Amazon EMR 4.7.0.

Rilis 4.7.0

penting

Amazon EMR 4.7.0 sudah usang. Gunakan Amazon EMR 4.7.1 atau versi setelahnya sebagai gantinya.

Tanggal rilis: 2 Juni 2016

Fitur

Fitur berikut tersedia dalam rilis ini:

  • Menambahkan Apache Phoenix 4.7.0

  • Menambahkan Apache Tez 0.8.3

  • Meng-upgrade HBase ke versi 1.2.1

  • Meng-upgraded Mahout ke versi 0.12.0

  • meng-upgrade Presto ke versi 0.147

  • Meng-upgrade AWS SDK for Java ke versi 1.10.75

  • Flag terakhir telah dihapus dari properti mapreduce.cluster.local.dir di mapred-site.xml untuk memungkinkan pengguna menjalankan Pig dalam mode lokal.

driver Amazon Redshift JDBC tersedia di cluster

Driver Amazon Redshift JDBC sekarang disertakan di /usr/share/aws/redshift/jdbc. /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar adalah driver Amazon Redshift yang kompatibel dengan JDBC 4.1 dan /usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar driver Amazon Redshift yang kompatibel dengan JDBC 4.0. Untuk informasi selengkapnya, lihat Mengonfigurasi koneksi JDBC di Panduan Manajemen Amazon Redshift.

Java 8

Kecuali untuk Presto, OpenJDK 1.7 adalah JDK default yang digunakan untuk semua aplikasi. Namun, OpenJDK 1.7 dan 1.8 semuanya diinstal. Untuk informasi tentang cara mengatur JAVA_HOME untuk aplikasi, lihat Mengkonfigurasi aplikasi untuk menggunakan Java 8.

Masalah yang diketahui yang dipecahkan dari rilis sebelumnya

  • Memperbaiki masalah kernel yang secara signifikan memengaruhi performa pada volume EBS Throughput Optimized HDD (st1) untuk Amazon EMR di emr-4.6.0.

  • Memperbaiki masalah di mana klaster akan gagal jika ada zona enkripsi HDFS yang ditentukan tanpa memilih Hadoop sebagai aplikasi.

  • Mengubah kebijakan tulis HDFS default dari RoundRobin menjadi AvailableSpaceVolumeChoosingPolicy. Beberapa volume tidak digunakan dengan benar dengan RoundRobin konfigurasi, yang mengakibatkan node inti gagal dan HDFS yang tidak dapat diandalkan.

  • Memperbaiki masalah dengan EMRFS CLI, yang akan menyebabkan pengecualian saat membuat tabel metadata DynamoDB default untuk tampilan yang konsisten.

  • Memperbaiki masalah kebuntuan di EMRFS yang berpotensi terjadi selama operasi penggantian nama dan penyalinan multi-bagian.

  • Memperbaiki masalah dengan EMRFS yang menyebabkan CopyPart ukuran default menjadi 5 MB. Default-nya sekarang diatur pada 128 MB.

  • Memperbaiki masalah dengan konfigurasi pemula Zeppelin yang berpotensi mencegah Anda menghentikan layanan.

  • Memperbaiki masalah dengan Spark dan Zeppelin, yang mencegah Anda menggunakan skema URI s3a:// karena /usr/lib/hadoop/hadoop-aws.jar tidak dimuat dengan benar di classpath masing-masing.

  • Melakukan backport HUE-2484.

  • Melakukan backport commit dari Hue 3.9.0 (tidak ada JIRA) untuk memperbaiki masalah dengan sampel peramban HBase.

  • Melakukan backport HIVE-9073.

Rilis 4.6.0

Tanggal rilis: 21 April 2016

Fitur

Fitur berikut tersedia dalam rilis ini:

Masalah yang memengaruhi jenis volume HDD (st1) EBS Throughput Optimized

Masalah pada kernel Linux versi 4.2 dan di atasnya secara signifikan memengaruhi performa pada volume Throughput Optimized HDD (st1) EBS untuk EMR. Rilis ini (emr-4.6.0) menggunakan kernel versi 4.4.5 dan karenanya terpengaruh. Oleh karena itu, kami menyarankan untuk tidak menggunakan emr-4.6.0 jika Anda ingin menggunakan volume st1 EBS. Anda dapat menggunakan emr-4.5.0 atau rilis Amazon EMR sebelumnya dengan st1 tanpa dampak. Selain itu, kami menyediakan perbaikan dengan rilis yang akan datang.

Standar Python

Python 3.4 sekarang diinstal secara default, tetapi Python 2.7 tetap menjadi default sistem. Anda dapat mengonfigurasi Python 3.4 sebagai default sistem menggunakan tindakan bootstrap; Anda dapat menggunakan API konfigurasi untuk mengatur ekspor PYSPARK_PYTHON ke dalam klasifikasi spark-env untuk memengaruhi versi Python /usr/bin/python3.4 yang digunakan oleh. PySpark

Java 8

Kecuali untuk Presto, OpenJDK 1.7 adalah JDK default yang digunakan untuk semua aplikasi. Namun, OpenJDK 1.7 dan 1.8 semuanya diinstal. Untuk informasi tentang cara mengatur JAVA_HOME untuk aplikasi, lihat Mengkonfigurasi aplikasi untuk menggunakan Java 8.

Masalah yang diketahui yang dipecahkan dari rilis sebelumnya

  • Memperbaiki masalah ketika penyediaan aplikasi terkadang gagal secara acak karena kata sandi yang dibuat.

  • Sebelumnya, mysqld diinstal pada semua simpul. Sekarang, itu hanya diinstal pada instans utama dan hanya jika aplikasi yang dipilih menyertakan mysql-server sebagai komponen. Saat ini, aplikasi berikut menyertakan komponen mysql-server: HCatalog, Hive, Hue, Presto-Sandbox, dan Sqoop-Sandbox.

  • Mengubah yarn.scheduler.maximum-allocation-vcores ke 80 dari default 32, yang memperbaiki masalah yang diperkenalkan di emr-4.4.0 yang terutama terjadi dengan Spark saat menggunakan opsi maximizeResourceAllocation di klaster yang tipe instans intinya adalah salah satu dari beberapa tipe instans besar yang mengatur YARN vcores lebih dari 32; yaitu c4.8xlarge, cc2.8xlarge, hs1.8xlarge, i2.8xlarge, m2.4xlarge, r3.8xlarge, d2.8xlarge, atau m4.10xlarge terpengaruh oleh masalah ini.

  • s3-dist-cp sekarang menggunakan EMRFS untuk semua nominasi Amazon S3 dan tidak lagi bertahap ke direktori HDFS sementara.

  • Memperbaiki masalah dengan penanganan pengecualian untuk unggahan multi-part enkripsi di sisi klien.

  • Menambahkan opsi untuk mengizinkan pengguna mengubah kelas penyimpanan Amazon S3. Secara default pengaturan ini adalah STANDARD. Pengaturan klasifikasi konfigurasi emrfs-site adalah fs.s3.storageClass dan nilai yang mungkin adalah STANDARD, STANDARD_IA, dan REDUCED_REDUNDANCY. Untuk informasi selengkapnya tentang kelas penyimpanan, lihat Kelas penyimpanan di Panduan Pengguna Layanan Penyimpanan Sederhana Amazon.

Rilis 4.5.0

Tanggal rilis: 4 April 2016

Fitur

Fitur berikut tersedia dalam rilis ini:

  • Meningkatkan ke Spark 1.6.1

  • Meng-upgrade Hadoop ke versi 2.7.2

  • Meng-upgrade Presto ke versi 0.140

  • Menambahkan support AWS KMS untuk enkripsi di sisi server Amazon S3.

Masalah yang diketahui yang dipecahkan dari rilis sebelumnya

  • Memperbaiki masalah ketika server MySQL dan Apache tidak dapat dimulai setelah simpul di-boot ulang.

  • Memperbaiki masalah di mana IMPORT tidak berfungsi dengan benar dengan tabel yang tidak dipartisi yang disimpan di Amazon S3

  • Diperbaiki masalah dengan Presto di mana ia memerlukan direktori pementasan menjadi /mnt/tmp ketimbang /tmp saat menulis ke tabel Hive.

Rilis 4.4.0

Tanggal rilis: 14 Maret 2016

Fitur

Fitur berikut tersedia dalam rilis ini:

  • HCatalog 1.0.0 ditambahkan

  • Menambahkan Sqoop-Sandbox versi 1.4.6

  • Meng-upgrade Presto ke versi 0.136

  • Meng-upgrade Zeppelin ke versi 0.5.6

  • Meng-upgraded Mahout ke versi 0.11.1

  • Mengaktifkan dynamicResourceAllocation secara default.

  • Menambahkan tabel semua klasifikasi konfigurasi untuk rilis. Untuk informasi selengkapnya, lihat Daftar Tabel klasifikasi konfigurasi dalam Mengkonfigurasi aplikasi.

Masalah yang diketahui yang dipecahkan dari rilis sebelumnya

  • Memperbaiki masalah di mana maximizeResourceAllocation pengaturan tidak akan menyimpan cukup memori untuk ApplicationMaster daemon YARN.

  • Memperbaiki masalah yang dihadapi dengan DNS kustom. Jika ada entri di resolve.conf sebelum entri kustom yang disediakan, maka entri kustom tidak akan dapat diselesaikan. Perilaku ini dipengaruhi oleh kluster di VPC tempat server nama VPC default dimasukkan sebagai entri teratas di resolve.conf.

  • Memperbaiki masalah saat Python default dipindahkan ke versi 2.7 dan boto tidak diinstal untuk versi tersebut.

  • Memperbaiki masalah ketika kontainer YARN dan aplikasi Spark akan menghasilkan file basis data round robin (rrd) Ganglia yang unik, yang mengakibatkan disk pertama yang terpasang pada instans terisi. Karena perbaikan ini, metrik tingkat kontainer YARN telah dinonaktifkan dan metrik tingkat aplikasi Spark telah dinonaktifkan.

  • Memperbaiki masalah di log pusher di mana ia akan menghapus semua folder log kosong. Efeknya adalah Hive CLI tidak dapat melakukan log karena log pusher menghapus folder user kosong di bawah /var/log/hive.

  • Memperbaiki masalah yang memengaruhi impor Hive, yang memengaruhi partisi dan mengakibatkan kesalahan selama melakukan impor.

  • Memperbaiki masalah di mana EMRFS dan s3-dist-cp tidak menangani nama bucket yang berisi titik dengan benar.

  • Mengubah perilaku di EMRFS sehingga dalam bucket yang mengaktifkan-versioning, file penanda _$folder$ tidak terus-menerus dibuat, yang dapat berkontribusi pada peningkatan performa untuk bucket yang mengaktifkan-versioning.

  • Mengubah perilaku di EMRFS sehingga tidak menggunakan file instruksi kecuali untuk kasus di mana enkripsi di sisi klien diaktifkan. Jika Anda ingin menghapus file instruksi saat menggunakan enkripsi di sisi klien, Anda dapat mengatur properti emrfs-site.xml, fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled, menjadi BETUL.

  • Mengubah agregasi log BEARN untuk mempertahankan log di tujuan agregasi selama dua hari. Tujuan default adalah penyimpanan HDFS cluster Anda. Jika Anda ingin mengubah durasi ini, ubah nilai yarn.log-aggregation.retain-seconds menggunakan yarn-site klasifikasi konfigurasi saat Anda membuat klaster. Seperti biasa, Anda dapat menyimpan log aplikasi ke Amazon S3 dengan menggunakan parameter log-uri saat Anda membuat klaster.

Patch diterapkan

Patch berikut dari proyek sumber terbuka disertakan dalam rilis ini:

Rilis 4.3.0

Tanggal rilis: 19 Januari 2016

Fitur

Fitur berikut tersedia dalam rilis ini:

  • Upgrade ke Hadoop 2.7.1

  • Meng-upgrade Spark ke versi 1.6.0

  • Meng-upgrade Ganglia ke versi 3.7.2

  • Meng-upgrade Presto ke versi 0.130

Amazon EMR membuat beberapa perubahan pada spark.dynamicAllocation.enabled saat diatur ke BETUL; secara default SALAH. Jika diatur ke BETUL, hal ini akan memengaruhi default yang diatur oleh pengaturan maximizeResourceAllocation:

  • Jika spark.dynamicAllocation.enabled diatur ke BETUL, spark.executor.instances tidak diatur oleh maximizeResourceAllocation.

  • Pengaturan spark.driver.memory sekarang dikonfigurasi berdasarkan tipe instans di klaster dengan cara yang mirip dengan cara pengaturan spark.executors.memory. Namun, karena aplikasi driver Spark dapat berjalan pada instans utama atau salah satu instans inti (misalnya, dalam mode klien YARN dan klaster), pengaturan spark.driver.memory diatur berdasarkan tipe instans dari tipe instans yang lebih kecil di antara dua grup instans tersebut.

  • Pengaturan spark.default.parallelism sekarang diatur menjadi dua kali jumlah inti CPU yang tersedia untuk kontainer YARN. Dalam rilis sebelumnya, ini adalah setengah nilai itu.

  • Perhitungan untuk overhead memori disediakan untuk proses Spark BEARN disesuaikan menjadi lebih akurat, menghasilkan peningkatan kecil dalam jumlah total memori yang tersedia untuk Spark (yaitu, spark.executor.memory).

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Agregasi log BEARN sekarang diaktifkan secara default.

  • Memperbaiki masalah di mana log tidak akan didorong ke kluster bucket log Amazon S3 saat agregasi log YARN diaktifkan.

  • Ukuran kontainer BEARN sekarang memiliki minimum baru 32 di semua jenis simpul.

  • Memperbaiki masalah Ganglia yang menyebabkan I/O disk berlebihan pada simpul utama dalam klaster besar.

  • Memperbaiki masalah yang mencegah log aplikasi didorong ke Amazon S3 saat klaster dimatikan.

  • Memperbaiki masalah di EMRFS CLI yang menyebabkan perintah tertentu gagal.

  • Memperbaiki masalah dengan Zeppelin yang mencegah dependensi dimuat di dasar. SparkContext

  • Memperbaiki masalah yang diakibatkan oleh pengubahan ukuran yang mencoba menambahkan instans.

  • Memperbaiki masalah di Hive di mana CREATE TABLE AS SELECT membuat panggilan daftar yang berlebihan ke Amazon S3.

  • Memperbaiki masalah ketika klaster besar tidak tersedia dengan benar saat Hue, Oozie, dan Ganglia diinstal.

  • Memperbaiki masalah di s3-dist-cp di mana ia akan mengembalikan kode keluar nol meskipun gagal dengan kesalahan.

Patch diterapkan

Patch berikut dari proyek sumber terbuka disertakan dalam rilis ini:

Rilis 4.2.0

Tanggal rilis: 18 November 2015

Fitur

Fitur berikut tersedia dalam rilis ini:

  • Menambahkan dukungan Ganglia

  • Meng-upgrade Spark ke versi 1.5.2

  • Meng-upgrade Presto ke versi 0.125

  • Meng-upgrade Oozie ke versi 4.2.0

  • Meng-upgrade Zeppelin ke versi 0.5.5

  • Mengupgrade AWS SDK for Java ke 1.10.27

Masalah yang diketahui diselesaikan dari rilis sebelumnya

  • Memperbaiki masalah dengan CLI EMRFS yang tidak menggunakan nama tabel metadata default.

  • Memperbaiki masalah yang ditemui saat menggunakan tabel yang didukung ORC di Amazon S3.

  • Memperbaiki masalah yang dihadapi dengan ketidakcocokan versi Python dalam konfigurasi Spark.

  • Memperbaiki masalah ketika status node YARN gagal untuk melaporkan karena masalah DNS untuk cluster di VPC.

  • Memperbaiki masalah yang dihadapi saat YARN menonaktifkan node, mengakibatkan aplikasi yang digantung atau ketidakmampuan untuk menjadwalkan aplikasi baru.

  • Memperbaiki masalah yang dihadapi saat kluster diakhiri dengan status TIMED_OUT_MULAI.

  • Memperbaiki masalah yang ditemui saat menyertakan dependensi Scala EMRFS di build lain yang dibangun. Ketergantungan Scala telah dihapus.