Langkah 6: Tinjau pengaturan konfigurasi untuk EMR klaster Amazon - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Langkah 6: Tinjau pengaturan konfigurasi untuk EMR klaster Amazon

Pengaturan konfigurasi menentukan detail tentang bagaimana klaster berjalan, seperti berapa kali untuk mencoba kembali tugas dan berapa banyak memori tersedia untuk menyortir. Saat Anda meluncurkan cluster menggunakan AmazonEMR, ada pengaturan EMR khusus Amazon selain pengaturan konfigurasi Hadoop standar. Pengaturan konfigurasi disimpan pada simpul utama klaster. Anda dapat memeriksa pengaturan konfigurasi untuk memastikan bahwa klaster Anda memiliki sumber daya yang diperlukan untuk berjalan secara efisien.

Amazon EMR mendefinisikan pengaturan konfigurasi Hadoop default yang digunakannya untuk meluncurkan cluster. Nilai-nilai didasarkan pada AMI dan jenis instance yang Anda tentukan untuk cluster. Anda dapat memodifikasi pengaturan konfigurasi ini dari nilai default menggunakan tindakan bootstrap atau dengan menentukan nilai-nilai baru dalam parameter eksekusi pekerjaan. Untuk informasi selengkapnya, lihat Buat tindakan bootstrap untuk menginstal perangkat lunak tambahan dengan EMR cluster Amazon. Untuk menentukan apakah tindakan bootstrap mengubah pengaturan konfigurasi, periksa log tindakan bootstrap.

Amazon EMR mencatat pengaturan Hadoop yang digunakan untuk menjalankan setiap pekerjaan. Data log disimpan dalam file bernama job_job-id_conf.xml di bawah /mnt/var/log/hadoop/history/ direktori master node, di mana job-id digantikan oleh pengenal pekerjaan. Jika Anda telah mengaktifkan pengarsipan log, data ini disalin ke Amazon S3 di folder, di mana logs/date/jobflow-id/jobs date adalah tanggal pekerjaan dijalankan, dan jobflow-id adalah pengidentifikasi cluster.

Pengaturan konfigurasi pekerjaan Hadoop berikut ini sangat berguna untuk menyelidiki masalah performa. Untuk informasi selengkapnya tentang pengaturan konfigurasi Hadoop dan cara mereka mempengaruhi perilaku Hadoop, buka http://hadoop.apache.org/docs/.

Awas
  1. Pengaturan dfs.replication ke 1 pada cluster dengan kurang dari empat node dapat menyebabkan hilangnya HDFS data jika satu node turun. Kami menyarankan Anda menggunakan cluster dengan setidaknya empat node inti untuk beban kerja produksi.

  2. Amazon tidak EMR akan mengizinkan cluster untuk menskalakan node inti di bawah inidfs.replication. Misalnya, jikadfs.replication = 2, jumlah minimum node inti adalah 2.

  3. Saat Anda menggunakan Penskalaan Terkelola, Penskalaan Otomatis, atau memilih untuk mengubah ukuran klaster secara manual, sebaiknya atur dfs.replication ke 2 atau lebih tinggi.

Pengaturan konfigurasi Deskripsi
dfs.replication Jumlah HDFS node yang satu blok (seperti blok hard drive) disalin untuk menghasilkan lingkungan RAID -like. Menentukan jumlah HDFS node yang berisi salinan blok.
io.sort.mb Total memori yang tersedia untuk menyortir. Nilai ini harus 10x io.sort.factor. Pengaturan ini juga dapat digunakan untuk menghitung total memori yang digunakan oleh simpul tugas dengan mencari io.sort.mb dikalikan dengan mapred.tasktracker.ap.tasks.maximum.
io.sort.spill.percent Digunakan selama penyortiran, ketika disk akan mulai digunakan karena memori penyortiran yang dialokasikan semakin penuh.
mapred.child.java.opts Tidak lagi digunakan. Gunakan mapred.map.child.java.opts dan mapred.reduce.child.java.opts sebagai gantinya. Opsi Java TaskTracker digunakan saat meluncurkan tugas JVM untuk dijalankan di dalamnya. Parameter umum adalah “-Xmx” untuk pengaturan ukuran memori maks.
mapred.map.child.java.opts Opsi Java TaskTracker digunakan saat meluncurkan tugas peta JVM untuk dijalankan di dalamnya. Parameter umum adalah “-Xmx” untuk pengaturan ukuran timbunan memori maks.
mapred.map.tasks.speculative.execution Menentukan apakah upaya tugas pemetaan dari tugas yang sama dapat diluncurkan secara paralel.
mapred.reduce.tasks.speculative.execution Menentukan apakah upaya tugas peredaman dari tugas yang sama dapat diluncurkan secara paralel.
mapred.map.max.attempts Jumlah maksimum tugas pemetaan dapat dicoba. Jika semua gagal, maka tugas pemetaan ditandai sebagai gagal.
mapred.reduce.child.java.opts Opsi Java TaskTracker digunakan saat meluncurkan tugas pengurangan JVM untuk dijalankan di dalamnya. Parameter umum adalah “-Xmx” untuk pengaturan ukuran timbunan memori maks.
mapred.reduce.max.attempts Jumlah maksimum tugas peredaman dapat dicoba. Jika semua gagal, maka tugas pemetaan ditandai sebagai gagal.
mapred.reduce.slowstart.completed.maps Jumlah tugas pemetaan yang harus diselesaikan sebelum tugas peredaman dicoba. Tidak menunggu cukup lama dapat menyebabkan kesalahan “Terlalu banyak kegagalan mengambil” dalam upaya.
mapred.reuse.jvm.num.tasks Sebuah tugas berjalan dalam satuJVM. Menentukan berapa banyak tugas dapat menggunakan kembali yang sama. JVM
mapred.tasktracker.map.tasks.maximum Jumlah maksimal tugas yang dapat dieksekusi secara paralel per simpul tugas selama pemetaan.
mapred.tasktracker.reduce.tasks.maximum Jumlah maksimal tugas yang dapat dieksekusi secara paralel per simpul tugas selama peredaman.

Jika tugas klaster Anda menggunakan banyak memori, Anda dapat meningkatkan performa dengan menggunakan lebih sedikit tugas per simpul inti dan mengurangi ukuran tumpukan pelacak pekerjaan Anda.