Memahami jenis node: node primer, inti, dan tugas - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memahami jenis node: node primer, inti, dan tugas

Gunakan bagian ini untuk memahami bagaimana Amazon EMR menggunakan setiap jenis simpul ini dan sebagai dasar untuk perencanaan kapasitas klaster.

Node utama

Node primer mengelola cluster dan biasanya menjalankan komponen utama dari aplikasi terdistribusi. Misalnya, node utama menjalankan ResourceManager layanan YARN untuk mengelola sumber daya untuk aplikasi. Ini juga menjalankan NameNode layanan HDFS, melacak status pekerjaan yang dikirimkan ke cluster, dan memantau kesehatan grup instance.

Untuk memantau kemajuan cluster dan berinteraksi langsung dengan aplikasi, Anda dapat terhubung ke node utama melalui SSH sebagai pengguna Hadoop. Untuk informasi selengkapnya, lihat Connect ke node utama menggunakan SSH. Menghubungkan ke node utama memungkinkan Anda untuk mengakses direktori dan file, seperti file log Hadoop, secara langsung. Untuk informasi selengkapnya, lihat Melihat berkas log. Anda juga dapat melihat antarmuka pengguna yang dipublikasikan aplikasi sebagai situs web yang berjalan di simpul utama. Untuk informasi selengkapnya, lihat Melihat antarmuka web yang di-host pada klaster Amazon EMR.

catatan

Dengan Amazon EMR 5.23.0 dan yang lebih baru, Anda dapat meluncurkan cluster dengan tiga node utama untuk mendukung ketersediaan aplikasi yang tinggi seperti YARN Resource Manager, HDFS, Spark, Hive NameNode, dan Ganglia. Node primer tidak lagi menjadi titik kegagalan tunggal potensial dengan fitur ini. Jika salah satu node primer gagal, Amazon EMR secara otomatis gagal ke node primer siaga dan mengganti node primer yang gagal dengan yang baru dengan konfigurasi dan tindakan bootstrap yang sama. Untuk informasi selengkapnya, lihat Merencanakan dan Mengkonfigurasi Node Utama.

Simpul inti

Node inti dikelola oleh simpul utama. Simpul inti menjalankan daemon Simpul Data untuk mengoordinasikan penyimpanan data sebagai bagian dari Sistem File Terdistribusi Hadoop (HDFS). Mereka juga menjalankan daemon Task Tracker dan melakukan tugas komputasi paralel lainnya pada data yang diperlukan oleh aplikasi yang diinstal. Misalnya, node inti menjalankan NodeManager daemon YARN, MapReduce tugas Hadoop, dan pelaksana Spark.

Hanya ada satu grup instans inti atau armada instans per cluster, tetapi mungkin ada beberapa node yang berjalan di beberapa instans Amazon EC2 di grup instans atau armada instans. Dengan grup instans, Anda dapat menambahkan dan menghapus instans Amazon EC2 saat klaster sedang berjalan. Anda juga dapat menyiapkan penskalaan otomatis untuk menambahkan instans berdasarkan nilai metrik. Untuk informasi selengkapnya tentang menambahkan dan menghapus instans Amazon EC2 dengan konfigurasi grup instans, lihat. Gunakan penskalaan cluster

Dengan armada instans, Anda dapat secara efektif menambah dan menghapus instans dengan memodifikasi kapasitas target armada instans untuk Sesuai Permintaan dan Spot sebagaimana mestinya. Untuk informasi selengkapnya tentang kapasitas target, lihat Opsi armada instans.

Awas

Menghapus daemon HDFS dari simpul inti yang sedang berjalan atau mengakhiri simpul inti mengakibatkan risiko kehilangan data. Berhati-hatilah saat mengonfigurasi simpul inti untuk menggunakan Instans Spot. Untuk informasi selengkapnya, lihat Kapan Anda harus menggunakan Instans Spot?.

Simpul tugas

Anda dapat menggunakan node tugas untuk menambahkan daya untuk melakukan tugas komputasi paralel pada data, seperti tugas Hadoop MapReduce dan pelaksana Spark. Simpul tugas tidak menjalankan daemon Simpul Dat, juga tidak menyimpan data dalam HDFS. Seperti halnya node inti, Anda dapat menambahkan node tugas ke klaster dengan menambahkan instans Amazon EC2 ke grup instans seragam yang ada atau dengan memodifikasi kapasitas target untuk armada instance tugas.

Dengan konfigurasi grup instans seragam, Anda dapat memiliki hingga total 48 grup instans tugas. Kemampuan untuk menambahkan grup instans dengan cara ini memungkinkan Anda untuk menggabungkan jenis instans Amazon EC2 dan opsi harga, seperti Instans Sesuai Permintaan dan Instans Spot. Ini memberi Anda fleksibilitas untuk menanggapi persyaratan beban kerja dengan cara yang hemat biaya.

Dengan konfigurasi armada instans, kemampuan untuk memadukan jenis instans dan opsi pembelian sudah ada di dalamnya, sehingga hanya ada satu armada instans tugas.

Karena Instans Spot sering digunakan untuk menjalankan simpul tugas, Amazon EMR memiliki fungsionalitas default untuk menjadwalkan tugas YARN sehingga tugas yang sedang berjalan tidak mengalami kegagalan saat simpul tugas yang berjalan pada Instans Spot diakhiri. Amazon EMR melakukan ini dengan mengizinkan proses utama aplikasi berjalan hanya pada simpul inti. Proses utama aplikasi mengontrol tugas yang sedang berjalan dan harus tetap hidup selama masa tugas.

Amazon EMR merilis 5.19.0 dan yang lebih baru menggunakan fitur label node YARN bawaan untuk mencapai ini. (Versi sebelumnya menggunakan patch kode). Properti dalam klasifikasi konfigurasi yarn-site dan capacity-scheduler dikonfigurasi secara default sehingga YARN capacity-scheduler dan fair-scheduler memanfaatkan label simpul. Amazon EMR secara otomatis melabeli simpul inti dengan label CORE, dan menetapkan properti sehingga utama aplikasi dijadwalkan hanya pada simpul dengan label INTI. Mengubah properti terkait secara manual dalam klasifikasi konfigurasi yarn-site dan capacity-scheduler, atau secara langsung dalam file XML terkait, dapat merusak fitur ini atau mengubah fungsionalitas ini.

Dimulai dengan Amazon EMR seri rilis 6.x, fitur label simpul YARN dinonaktifkan secara default. Proses utama aplikasi dapat berjalan pada node inti dan tugas secara default. Anda dapat mengaktifkan fitur label simpul YARN dengan mengkonfigurasi properti berikut:

  • yarn.node-labels.enabled: true

  • yarn.node-labels.am.default-node-label-expression: 'CORE'

Untuk informasi tentang properti tertentu, lihat Pengaturan Amazon EMR untuk mencegah kegagalan tugas karena pengakhiran Instans Spot simpul tugas.