Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Persyaratan klaster Amazon EMR
Cluster EMR Amazon Berjalan di Amazon EC2
Semua klaster EMR Amazon yang berjalan di Amazon EC2 yang Anda buat untuk EMR Studio Workspace harus memenuhi persyaratan berikut. Cluster yang Anda buat menggunakan antarmuka EMR Studio secara otomatis memenuhi persyaratan ini.
-
Cluster harus menggunakan Amazon EMR versi 5.32.0 (Amazon EMR 5.x series) atau 6.2.0 (Amazon EMR 6.x series) atau yang lebih baru. Anda dapat membuat klaster menggunakan konsol Amazon EMR, atau SDK AWS Command Line Interface, lalu melampirkannya ke EMR Studio Workspace. Pengguna studio juga dapat menyediakan dan melampirkan cluster saat membuat atau bekerja di Amazon EMR Workspace. Untuk informasi selengkapnya, lihat Lampirkan komputasi ke Ruang Kerja EMR Studio.
-
Cluster harus berada dalam Amazon Virtual Private Cloud. Platform EC2 -Classic tidak didukung.
-
Cluster harus menginstal Spark, Livy, dan Jupyter Enterprise Gateway. Jika Anda berencana untuk menggunakan cluster untuk SQL Explorer, Anda harus menginstal Presto dan Spark.
-
Untuk menggunakan SQL Explorer, cluster harus menggunakan Amazon EMR versi 5.34.0 atau yang lebih baru atau versi 6.4.0 atau yang lebih baru dan memiliki Presto diinstal. Jika Anda ingin menentukan Katalog Data AWS Glue sebagai metastore Hive untuk Presto, Anda harus mengkonfigurasinya di cluster. Untuk informasi selengkapnya, lihat Menggunakan Presto dengan Katalog Glue Data AWS.
-
Cluster harus berada dalam subnet pribadi dengan terjemahan alamat jaringan (NAT) untuk menggunakan repositori Git yang dihosting publik dengan EMR Studio.
Kami merekomendasikan konfigurasi cluster berikut saat Anda bekerja dengan EMR Studio.
-
Setel mode penerapan untuk sesi Spark ke mode cluster. Mode cluster menempatkan proses master aplikasi pada node inti dan bukan pada node utama cluster. Melakukannya mengurangi simpul utama dari tekanan memori potensial. Untuk informasi selengkapnya, lihat Gambaran Umum Mode Cluster
di dokumentasi Apache Spark. -
Ubah batas waktu Livy dari default satu jam menjadi enam jam seperti pada konfigurasi contoh berikut.
{ "classification":"livy-conf", "Properties":{ "livy.server.session.timeout":"6h", "livy.spark.deploy-mode":"cluster" } }
-
Buat armada instans yang beragam dengan hingga 30 instans, dan pilih beberapa jenis instans di armada Instans Spot Anda. Misalnya, Anda dapat menentukan jenis instance yang dioptimalkan memori berikut untuk beban kerja Spark: r5.2x, r5.4x, r5.8x, r5.12x, r5.16x, r4.2x, r4.4x, r4.8x, r4.12, dll. Untuk informasi selengkapnya, lihat Merencanakan dan mengonfigurasi armada instans untuk klaster EMR Amazon.
-
Gunakan strategi alokasi yang dioptimalkan kapasitas untuk Instans Spot untuk membantu Amazon EMR membuat pilihan instans yang efektif berdasarkan wawasan kapasitas real-time dari Amazon. EC2 Untuk informasi selengkapnya, lihat Strategi alokasi untuk armada instans.
-
Aktifkan penskalaan terkelola di klaster Anda. Tetapkan parameter node inti maksimum ke kapasitas persisten minimum yang Anda rencanakan untuk digunakan, dan konfigurasikan penskalaan pada armada tugas yang terdiversifikasi dengan baik yang berjalan di Instans Spot untuk menghemat biaya. Untuk informasi selengkapnya, lihat Menggunakan penskalaan terkelola di Amazon EMR.
Kami juga mendorong Anda untuk menjaga Amazon EMR Block Public Access diaktifkan, dan itu untuk membatasi lalu lintas SSH masuk ke sumber tepercaya. Akses masuk ke klaster memungkinkan pengguna menjalankan notebook pada klaster. Untuk informasi lebih lanjut, lihat Menggunakan Akses publik blok Amazon EMR dan Kontrol lalu lintas jaringan dengan grup keamanan untuk klaster EMR Amazon Anda.
Amazon EMR di Kluster EKS
Selain kluster EMR yang berjalan di Amazon EC2, Anda dapat mengatur dan mengelola Amazon EMR di kluster EKS untuk EMR Studio menggunakan. AWS CLI Siapkan Amazon EMR di kluster EKS menggunakan pedoman berikut:
-
Buat titik akhir HTTPS terkelola untuk EMR Amazon di kluster EKS. Pengguna melampirkan Workspace ke endpoint terkelola. Cluster Amazon Elastic Kubernetes Service (EKS) yang Anda gunakan untuk mendaftarkan klaster virtual harus memiliki subnet pribadi untuk mendukung endpoint terkelola.
-
Gunakan klaster Amazon EKS dengan setidaknya satu subnet pribadi dan terjemahan alamat jaringan (NAT) saat Anda ingin menggunakan repositori Git yang dihosting publik.
-
Hindari penggunaan Amazon EKS yang dioptimalkan Arm Amazon Linux AMIs, yang tidak didukung untuk Amazon EMR pada titik akhir yang dikelola EKS.
-
Hindari menggunakan kluster Amazon EKS AWS Fargate-only, yang tidak didukung.