Kirim langkah streaming - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kirim langkah streaming

Bagian ini mencakup dasar-dasar pengiriman langkah streaming ke klaster. Sebuah aplikasi streaming membaca masukan dari input standar dan kemudian menjalankan skrip atau yang dapat dieksekusi (disebut pemeta) terhadap setiap input. Hasil dari masing-masing input disimpan secara lokal, biasanya di partisi Sistem File Terdistribusi Hadoop (HDFS). Setelah semua input diproses oleh pemeta, skrip kedua atau yang dapat dieksekusi (disebut peredam) memproses hasil pemeta. Hasil dari peredam dikirim ke output standar. Anda dapat menyatukan serangkaian langkah streaming, di mana output dari satu langkah menjadi masukan untuk langkah lain.

Pemeta dan peredam masing-masing dapat direferensikan sebagai file atau Anda dapat menyediakan kelas Java. Anda dapat menerapkan pemeta dan peredam dalam salah satu bahasa yang didukung, termasuk Ruby, Perl, Python, PHP, atau Bash.

Kirim langkah streaming menggunakan konsol

Contoh ini menjelaskan cara menggunakan konsol Amazon EMR untuk mengirimkan langkah streaming untuk klaster berjalan.

Untuk mengirimkan langkah streaming
  1. Buka konsol Amazon EMR di https://console.aws.amazon.com/emr.

  2. Pada halaman Daftar Klaster, pilih tautan untuk klaster Anda.

  3. Gulir ke bagian Langkah dan perluas, lalu pilih Tambahkan langkah.

  4. Di kotak dialog Tambahkan Langkah:

    • Untuk Tipe langkah, pilih Program streaming.

    • Untuk Nama, terima nama default (program Streaming) atau ketik nama baru.

    • Untuk Pemeta, ketik atau jelajahi ke lokasi kelas pemeta Anda di Hadoop, atau bucket S3 tempat pemeta yang dapat dieksekusi, seperti program Python, berada. Nilai path harus dalam bentuk BucketName/path/MapperExecutable.

    • Untuk Peredam, ketik atau jelajahi ke lokasi kelas peredam Anda di Hadoop, atau bucket S3 tempat pemeta yang dapat dieksekusi, seperti program Python, berada. Nilai path harus dalam bentuk BucketName/path/MapperExecutable. Amazon EMR mendukung kata kunci khusus agregat. Untuk informasi lebih lanjut, buka pustaka Agregat yang disediakan oleh Hadoop.

    • Untuk Lokasi Input S3, ketik atau jelajahi ke lokasi data input Anda.

    • Untuk Lokasi Output S3, ketik atau jelajahi nama bucket output Amazon S3.

    • Untuk Pendapat, biarkan kosong.

    • Untuk Tindakan pada kegagalan, terima opsi default (Lanjutkan).

  5. Pilih Tambahkan. Langkah muncul di konsol dengan status Tertunda.

  6. Status langkah perubahan dari Tertunda ke Sedang Berjalan hingga Selesai sebagai langkah berjalan. Untuk memperbarui status, pilih ikon Refresh di atas kolom Tindakan.

AWS CLI

Contoh-contoh ini menunjukkan cara menggunakan AWS CLI untuk membuat sebuah klaster dan mengirimkan langkah Streaming.

Untuk membuat sebuah klaster dan mengirimkan langkah streaming menggunakan AWS CLI
  • Untuk membuat sebuah klaster dan mengirimkan langkah streaming menggunakanAWS CLI, ketik perintah berikut dan ganti myKey dengan nama key pair EC2 anda. Perhatikan bahwa argumen Anda untuk--files harus jalur Amazon S3 ke lokasi skrip Anda, dan argumen untuk-mapper dan-reducer harus menjadi nama file skrip masing-masing.

    aws emr create-cluster --name "Test cluster" --release-label emr-5.36.0 --applications Name=Hue Name=Hive Name=Pig --use-default-roles \ --ec2-attributes KeyName=myKey --instance-type m5.xlarge --instance-count 3 \ --steps Type=STREAMING,Name="Streaming Program",ActionOnFailure=CONTINUE,Args=[--files,pathtoscripts,-mapper,mapperscript,-reducer,reducerscript,aggregate,-input,pathtoinputdata,-output,pathtooutputbucket]
    catatan

    Karakter lanjutan baris Linux (\) disertakan agar mudah dibaca Karakter ini bisa dihapus atau digunakan dalam perintah Linux. Untuk Windows, hapus atau ganti dengan tanda sisipan (^).

    Ketika Anda menentukan jumlah instans tanpa menggunakan --instance-groups parameter, simpul utama tunggal diluncurkan, dan instans yang tersisa diluncurkan sebagai simpul inti. Semua simpul menggunakan tipe instans yang ditentukan dalam perintah.

    catatan

    Jika sebelumnya Anda tidak membuat peran layanan Amazon EMR default dan profil instans EC2, ketik aws emr create-default-roles untuk membuatnya sebelum mengetik create-cluster subperintah.

    Untuk informasi selengkapnya tentang menggunakan perintah Amazon EMR dalam AWS CLI, lihat https://docs.aws.amazon.com/cli/latest/reference/emr.