Manfaat menggunakan Amazon EMR - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Manfaat menggunakan Amazon EMR

Terdapat banyak manfaat untuk menggunakan Amazon EMR. Bagian ini memberikan gambaran umum manfaat dan tautan ke informasi tambahan untuk membantu Anda menjelajah lebih jauh.

Penghematan biaya

Harga Amazon EMR bergantung pada jenis instans dan jumlah instans Amazon EC2 yang Anda deploy serta Wilayah tempat Anda meluncurkan klaster. Harga sesuai permintaan menawarkan tarif rendah, tetapi Anda dapat mengurangi biaya lebih jauh dengan membeli Instans Cadangan atau Instans Spot. Instans Spot dapat menawarkan penghematan yang signifikan—lebih rendah sebanyak sepersepuluh dari harga sesuai permintaan dalam beberapa kasus.

catatan

Jika Anda menggunakan Amazon S3, Amazon Kinesis, atau DynamoDB dengan klaster EMR Anda, terdapat biaya tambahan untuk layanan tersebut yang ditagih secara terpisah dari penggunaan Amazon EMR Anda.

catatan

Saat menyiapkan kluster EMR Amazon di subnet pribadi, sebaiknya Anda juga menyiapkan titik akhir VPC untuk Amazon S3. Jika kluster EMR Anda berada dalam subnet pribadi tanpa titik akhir VPC untuk Amazon S3, Anda akan dikenakan biaya gateway NAT tambahan yang terkait dengan lalu lintas S3 karena lalu lintas antara kluster EMR Anda dan S3 tidak akan tetap berada dalam VPC Anda.

Untuk informasi selengkapnya tentang opsi harga dan detailnya, lihat harga Amazon EMR.

Integrasi AWS

Amazon EMR terintegrasi dengan layanan AWS lainnya untuk menyediakan kemampuan dan fungsionalitas yang terkait dengan jaringan, penyimpanan, keamanan, dan sebagainya, untuk klaster Anda. Daftar berikut memberikan beberapa contoh integrasi ini:

  • Amazon EC2 untuk instans yang terdiri atas simpul dalam klaster

  • Amazon Virtual Private Cloud (Amazon VPC) untuk mengonfigurasi jaringan virtual tempat Anda meluncurkan instans

  • Amazon S3 untuk menyimpan data input dan output

  • Amazon CloudWatch untuk memantau kinerja cluster dan mengonfigurasi alarm

  • AWS Identity and Access Management (IAM) untuk mengonfigurasi izin

  • AWS CloudTrail untuk mengaudit permintaan yang dibuat untuk layanan

  • AWS Data Pipeline untuk menjadwalkan dan memulai klaster Anda

  • AWS Lake Formation untuk menemukan, membuat katalog, dan mengamankan data di danau data Amazon S3

Deployment

Klaster EMR Anda terdiri dari instans EC2, yang melakukan pekerjaan yang Anda kirimkan ke klaster. Ketika Anda meluncurkan klaster, Amazon EMR mengonfigurasi instans dengan aplikasi yang Anda pilih, seperti Apache Hadoop atau Spark. Pilih ukuran dan jenis instans yang paling sesuai dengan kebutuhan pemrosesan klaster Anda: pemrosesan batch, kueri latensi rendah, data streaming, atau penyimpanan data besar. Untuk informasi selengkapnya tentang tipe instans yang tersedia untuk Amazon EMR, lihat Konfigurasi perangkat keras dan jaringan klaster.

Amazon EMR menawarkan berbagai cara untuk mengonfigurasi perangkat lunak pada klaster Anda. Misalnya, Anda dapat menginstal rilis Amazon EMR dengan satu set aplikasi pilihan yang dapat mencakup kerangka kerja serbaguna, seperti Hadoop, dan aplikasi, seperti Hive, Pig, atau Spark. Anda juga dapat menginstal salah satu dari beberapa distribusi MapR. Amazon EMR menggunakan Amazon Linux, sehingga Anda juga dapat menginstal perangkat lunak pada klaster secara manual menggunakan manajer paket yum atau dari sumbernya. Untuk informasi selengkapnya, lihat Konfigurasi perangkat lunak klaster.

Skalabilitas dan fleksibilitas

Amazon EMR memberikan fleksibilitas untuk menskalakan klaster Anda naik atau turun seiring berubahnya kebutuhan komputasi Anda. Anda dapat mengubah ukuran klaster untuk menambahkan instans untuk beban kerja puncak dan menghapus instans untuk mengontrol biaya ketika beban kerja puncak mereda. Untuk informasi selengkapnya, lihat Secara manual mengubah ukuran klaster berjalan.

Amazon EMR juga menyediakan opsi untuk menjalankan beberapa grup instans sehingga Anda dapat menggunakan Instans Sesuai Permintaan dalam satu grup untuk daya pemrosesan terjamin bersama dengan Instans Spot dalam grup lain agar pekerjaan Anda selesai lebih cepat dan dengan biaya yang lebih rendah. Anda juga dapat mencampur tipe instans yang berbeda untuk mengambil keuntungan dari harga yang lebih baik untuk satu jenis Instans Spot dari yang lain. Untuk informasi selengkapnya, lihat Kapan Anda harus menggunakan Instans Spot?.

Selain itu, Amazon EMR menyediakan fleksibilitas untuk menggunakan beberapa sistem file untuk input, output, dan data menengah. Misalnya, Anda dapat memilih Hadoop Distributed File System (HDFS) yang berjalan pada node primer dan inti klaster Anda untuk memproses data yang tidak perlu Anda simpan di luar siklus hidup klaster Anda. Anda dapat memilih Sistem File EMR (EMRFS) untuk menggunakan Amazon S3 sebagai lapisan data untuk aplikasi yang berjalan di klaster Anda sehingga Anda dapat memisahkan komputasi dan penyimpanan Anda, serta mempertahankan data di luar siklus hidup klaster. EMRFS memberikan manfaat tambahan yang memungkinkan Anda meningkatkan atau mengurangi kebutuhan komputasi dan penyimpanan Anda secara independen. Anda dapat menskalakan kebutuhan komputasi dengan mengubah ukuran klaster dan Anda dapat menskalakan kebutuhan penyimpanan dengan menggunakan Amazon S3. Untuk informasi selengkapnya, lihat Bekerja dengan sistem penyimpanan dan file.

Keandalan

Amazon EMR memantau simpul dalam klaster Anda dan secara otomatis mengakhiri dan mengganti instans apabila mengalami kegagalan.

Amazon EMR menyediakan opsi konfigurasi yang mengontrol jika klaster Anda dihentikan secara otomatis atau manual. Jika Anda mengonfigurasi klaster agar secara otomatis diakhiri, klaster akan diakhiri setelah semua langkah selesai. Ini disebut sebagai klaster sementara. Namun, Anda dapat mengonfigurasi klaster untuk terus berjalan setelah pemrosesan selesai sehingga Anda dapat memilih untuk mengakhirinya secara manual ketika tidak lagi membutuhkannya. Atau, Anda dapat membuat klaster, berinteraksi dengan aplikasi yang diinstal secara langsung, kemudian secara manual mengakhiri klaster tersebut ketika tidak lagi membutuhkannya. Klaster dalam contoh ini disebut sebagai klaster yang berjalan lama.

Selain itu, Anda dapat mengonfigurasi perlindungan penghentian untuk mencegah instans di klaster Anda diakhiri karena kesalahan atau masalah selama pemrosesan. Ketika perlindungan penghentian diaktifkan, Anda dapat memulihkan data dari instans sebelum penghentian. Pengaturan default untuk opsi ini berbeda bergantung pada apakah Anda memulai klaster menggunakan konsol, CLI, atau API. Untuk informasi selengkapnya, lihat Menggunakan perlindungan pengakhiran.

Keamanan

Amazon EMR memanfaatkan layanan AWS lain, seperti IAM dan Amazon VPC, serta fitur seperti pasangan kunci Amazon EC2, untuk membantu Anda mengamankan klaster dan data Anda.

IAM

Amazon EMR terintegrasi dengan IAM untuk mengelola izin. Anda menentukan izin menggunakan kebijakan IAM, yang Anda lampirkan ke pengguna atau grup IAM. Izin yang Anda tetapkan dalam kebijakan menentukan tindakan yang pengguna atau anggota grup dapat lakukan dan sumber daya yang dapat mereka akses. Untuk informasi selengkapnya, lihat Cara kerja Amazon EMR dengan IAM.

Selain itu, Amazon EMR menggunakan peran IAM untuk layanan Amazon EMR itu sendiri dan profil instans EC2 untuk instans. Peran ini memberikan izin untuk layanan dan instans untuk mengakses layanan AWS atas nama Anda. Terdapat peran default untuk layanan Amazon EMR dan peran default untuk profil instans EC2. Peran default menggunakan kebijakan terkelola AWS, yang dibuat untuk Anda secara otomatis saat pertama kali meluncurkan klaster EMR dari konsol dan memilih izin default. Anda juga dapat membuat IAM role default dari AWS CLI. Jika Anda ingin mengelola izin, bukannya AWS, Anda dapat memilih peran khusus untuk layanan dan profil instans. Untuk informasi selengkapnya, lihat Konfigurasi peran layanan IAM untuk izin Amazon EMR untuk layanan AWS dan sumber daya.

Grup keamanan

Amazon EMR menggunakan grup keamanan untuk mengontrol lalu lintas masuk dan keluar untuk instans EC2 Anda. Saat meluncurkan klaster, Amazon EMR menggunakan grup keamanan untuk instans utama dan grup keamanan untuk dibagikan oleh instans inti/tugas Anda. Amazon EMR mengonfigurasi aturan grup keamanan untuk memastikan komunikasi antara instans dalam klaster. Secara opsional, Anda dapat mengonfigurasi grup keamanan tambahan dan menetapkannya ke instance utama dan inti/tugas Anda untuk aturan yang lebih maju. Untuk informasi selengkapnya, lihat Mengendalikan lalu lintas jaringan dengan grup keamanan.

Enkripsi

Amazon EMR mendukung enkripsi di sisi klien dan di sisi server Amazon S3 opsional dengan EMRFS untuk membantu melindungi data yang Anda simpan di Amazon S3. Dengan enkripsi di sisi server, Amazon S3 mengenkripsi data Anda setelah mengunggahnya.

Dengan enkripsi di sisi klien, proses enkripsi dan dekripsi terjadi di klien EMRFS di klaster EMR Anda. Anda mengelola kunci root untuk enkripsi sisi klien menggunakan AWS Key Management Service (AWS KMS) atau sistem manajemen kunci Anda sendiri.

Untuk informasi selengkapnya, lihat Menentukan enkripsi Amazon S3 menggunakan properti EMRFS.

Amazon VPC

Amazon EMR mendukung peluncuran klaster dalam virtual private cloud (VPC) di Amazon VPC. VPC adalah jaringan virtual terisolasi di AWS yang menyediakan kemampuan untuk mengontrol aspek lanjutan dari konfigurasi jaringan dan akses. Untuk informasi selengkapnya, lihat Mengkonfigurasi jaringan.

AWS CloudTrail

Amazon EMR terintegrasi dengan CloudTrail untuk mencatat informasi tentang permintaan yang dibuat oleh atau atas nama akun Anda. AWS Dengan informasi ini, Anda dapat melacak siapa yang mengakses klaster Anda dan kapan, dan alamat IP asal mereka membuat permintaan. Untuk informasi selengkapnya, lihat Logging panggilan API Amazon EMR di AWS CloudTrail.

Pasangan kunci Amazon EC2

Anda dapat memantau dan berinteraksi dengan cluster Anda dengan membentuk koneksi aman antara komputer jarak jauh Anda dan node utama. Anda menggunakan protokol jaringan Secure Shell (SSH) untuk koneksi ini atau menggunakan Kerberos untuk autentikasi. Jika Anda menggunakan SSH, pasangan kunci Amazon EC2 diperlukan. Untuk informasi selengkapnya, lihat Menggunakan key pair EC2 untuk kredensi SSH.

Pemantauan

Anda dapat menggunakan file log dan antarmuka manajemen Amazon EMR untuk memecahkan masalah klaster, seperti kegagalan atau kesalahan. Amazon EMR menyediakan kemampuan untuk mengarsipkan file log di Amazon S3 sehingga Anda dapat menyimpan log dan memecahkan masalah bahkan setelah klaster Anda berakhir. Amazon EMR juga menyediakan alat debugging opsional di konsol Amazon EMR untuk menelusuri file log berdasarkan langkah, pekerjaan, dan tugas. Untuk informasi selengkapnya, lihat Konfigurasi pencatatan log dan debugging klaster.

Amazon EMR terintegrasi dengan CloudWatch untuk melacak metrik kinerja untuk klaster dan pekerjaan di dalam klaster. Anda dapat mengonfigurasi alarm berdasarkan berbagai metrik, seperti apakah klaster dalam keadaan diam atau persentase penyimpanan yang digunakan. Untuk informasi selengkapnya, lihat Memantau metrik Amazon EMR dengan CloudWatch.

Antarmuka manajemen

Ada beberapa cara berinteraksi dengan Amazon EMR:

  • Konsol — Antarmuka pengguna grafis yang dapat Anda gunakan untuk meluncurkan dan mengelola klaster. Dengan itu, Anda mengisi formulir web untuk menentukan detail klaster untuk memulai, melihat detail klaster yang ada, men-debug, dan mengakhiri klaster. Menggunakan konsol adalah cara paling mudah untuk memulai Amazon EMR; tidak memerlukan pengetahuan pemrograman. Konsol tersedia online di https://console.aws.amazon.com/elasticmapreduce/home.

  • AWS Command Line Interface (AWS CLI) — Sebuah aplikasi klien yang Anda jalankan pada mesin lokal untuk terhubung ke Amazon EMR serta membuat dan mengelola klaster. AWS CLI berisi serangkaian perintah kaya fitur khusus untuk Amazon EMR. Dengan itu, Anda dapat menulis skrip yang mengotomatiskan proses peluncuran dan pengelolaan klaster. Jika Anda lebih suka bekerja dari baris perintah, menggunakan AWS CLI adalah opsi terbaik. Untuk informasi lebih lanjut, lihat Amazon EMR dalam Referensi Perintah AWS CLI.

  • Kit Pengembangan Perangkat Lunak (SDK) — SDK menyediakan fungsi yang memanggil Amazon EMR untuk membuat dan mengelola klaster. Dengan SDK, Anda dapat menulis aplikasi yang mengotomatiskan proses pembuatan dan pengelolaan klaster. Menggunakan SDK adalah opsi terbaik untuk memperluas atau menyesuaikan fungsi Amazon EMR. Amazon EMR saat ini tersedia dalam SDK berikut: Go, Java, NET (C# dan VB.NET), Node.js, PHP, Python, dan Ruby. Untuk informasi selengkapnya tentang SDK ini, lihat Alat untuk AWS dan kode sampel & pustaka Amazon EMR.

  • Layanan Web API — Antarmuka tingkat rendah yang dapat Anda gunakan untuk memanggil layanan web secara langsung, menggunakan JSON. Menggunakan API ini adalah opsi terbaik untuk membuat SDK khusus yang memanggil Amazon EMR. Untuk informasi lebih lanjut, lihat Referensi Amazon EMR API.