Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memilih perangkat keras untuk cluster EMR Amazon Anda
Sayde Aguilar, Amiin Samatar, dan Diego Valencia, Amazon Web Services ()AWS
Agustus 2023 (sejarah dokumen)
Amazon EMR adalah alat untuk pemrosesan data besar. Ini menggunakan perangkat lunak open source, khususnya alat Apache seperti Apache Spark dan Apache Hudi. Selain itu, ia menawarkan beberapa opsi untuk mengonfigurasi dan menggunakan model berbiaya rendah. pay-as-you-go
Panduan ini menjelaskan cara mendesain kluster EMR Amazon Anda berdasarkan elastisitas itu, dan ini memberikan praktik terbaik untuk diikuti saat memilih perangkat keras.
Gambaran Umum
Amazon EMR dibangun menggunakan Apache Hadoop MapReduce, kerangka kerja untuk memproses sejumlah besar data. Hadoop MapReduce memproses data dalam cluster terdistribusi pada saat yang sama menggunakan logika paralel, yang berarti setiap proses memiliki prosesor sendiri. Amazon EMR menggunakan cluster Hadoop server virtual yang terstruktur di Amazon Elastic Compute Cloud (Amazon). EC2 Ini berarti semua proses paralel dibuat pada komputer mandiri yang berjalan di Amazon Web Services (AWS).
Cluster Hadoop adalah jenis cluster komputasi tertentu yang digunakan untuk memproses sejumlah besar data tidak terstruktur menggunakan lingkungan paralel atau terdistribusi. Karakteristik utama dari cluster Hadoop adalah bahwa ia sangat skalabel dan dapat dikonfigurasi untuk mempercepat pemrosesan data. Skalabilitas dicapai dengan menambahkan atau menghapus node untuk menambah atau mengurangi throughput. Pada cluster Hadoop, setiap bagian data disalin antara node cluster, sehingga hampir nol data hilang jika node gagal.
Di Amazon EMR, elastisitas mengacu pada kemampuan mengubah ukuran dinamis. Anda dapat secara otomatis menskalakan cluster dan membuat perubahan apa pun yang Anda butuhkan. Anda tidak harus bergantung pada desain perangkat keras awal Anda.
Panduan ini menjelaskan cara mendesain kluster EMR Amazon Anda berdasarkan elastisitas itu, dan ini memberikan praktik terbaik untuk diikuti saat memilih perangkat keras.