Kirim hasil karya Pig - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kirim hasil karya Pig

Bagian ini menunjukkan mengirimkan Pig bekerja untuk cluster Amazon EMR. Contoh berikut menghasilkan laporan yang berisi total byte yang ditransfer, daftar 50 alamat IP teratas, daftar 50 referer eksternal teratas, dan 50 istilah penelusuran teratas menggunakan Bing dan Google. Skrip Pig terletak di bucket Amazon S3 s3://elasticmapreduce/samples/pig-apache/do-reports2.pig. Data masukan terletak di bucket Amazon S3 s3://elasticmapreduce/samples/pig-apache/input. Output disimpan ke bucket Amazon S3.

Kirim Pig bekerja menggunakan konsol Amazon EMR

Contoh ini menjelaskan cara menggunakan konsol Amazon EMR.

Untuk mengirimkan langkah Pig
  1. Buka konsol Amazon EMR di https://console.aws.amazon.com/emr.

  2. Pilih Buat klaster untuk membuat klaster dengan Pig terinstal. Untuk langkah-langkah tentang cara membuat klaster, lihat Merencanakan dan mengonfigurasi klaster Amazon EMR.

  3. Buka terminal dan SSH ke master node cluster Anda mengikuti langkah-langkah yang diuraikan di Connect ke master node menggunakan SSH. Setelah Anda melakukannya, jalankan langkah-langkah berikut.

    sudo mkdir -p /home/hadoop/lib/pig/ sudo aws s3 cp s3://elasticmapreduce/libs/pig/0.3/piggybank-0.3-amzn.jar /home/hadoop/lib/pig/piggybank.jar
  4. Di konsol, klik Daftar Klaster dan pilih nama klaster yang Anda buat.

  5. Gulir ke bagian Langkah dan perluas, lalu pilih Tambahkan langkah.

  6. Di Tambah Langkah dialog:

    • Untuk Jenis langkah, pilih Program Pig.

    • Untuk Nama, menerima nama default (program Pig) atau ketik nama baru.

    • Untuk Lokasi Script S3, ketik lokasi skrip Pig. Sebagai contoh: s3://elasticmapreduce/samples/pig-apache/do-reports2.pig.

    • Untuk Masukan lokasi S3, ketik lokasi input data. Sebagai contoh: s3://elasticmapreduce/samples/pig-apache/input.

    • Untuk Lokasi Output S3, ketik atau jelajahi nama bucket Amazon S3.

    • Untuk Pendapat, biarkan kosong.

    • Untuk Tindakan pada kegagalan, terima opsi default (Lanjutkan).

  7. Pilih Tambahkan. Langkah muncul di konsol dengan status Tertunda.

  8. Status langkah perubahan dari Tertunda ke Sedang Berjalan hingga Selesai sebagai langkah berjalan. Untuk memperbarui status, pilih ikon Segarkan di atas kolom Tindakan. Saat langkah Anda selesai, periksa bucket Amazon S3 Anda untuk mengonfirmasi file keluaran langkah Pig Anda ada di sana.

Kirim pekerjaan Pig menggunakan AWS CLI

Untuk mengirimkan langkah Pig menggunakan AWS CLI

Ketika Anda meluncurkan sebuah cluster menggunakan AWS CLI, menggunakan --applications parameter untuk menginstal Pig. Untuk mengirimkan langkah Pig, gunakan --steps Parameter.

  1. Untuk meluncurkan klaster dengan Pig yang terinstal, ketik perintah berikut, ganti myKey dan DOC-EXAMPLE-BUCKET/ dengan nama key pair EC2 dan bucket Amazon S3.

    aws emr create-cluster \ --name "Test cluster" \ --log-uri s3://DOC-EXAMPLE-BUCKET/ \ --release-label emr-5.36.0 \ --applications Name=Pig \ --use-default-roles \ --ec2-attributes KeyName=myKey \ --instance-type m5.xlarge \ --instance-count 3
    catatan

    Karakter lanjutan baris Linux (\) disertakan agar mudah dibaca Karakter ini bisa dihapus atau digunakan dalam perintah Linux. Untuk Windows, hapus atau ganti dengan tanda sisipan (^).

    Ketika Anda menentukan jumlah instans tanpa menggunakan --instance-groups parameter, simpul utama tunggal diluncurkan, dan instans yang tersisa diluncurkan sebagai simpul inti. Semua node menggunakan jenis contoh yang ditentukan dalam perintah.

    catatan

    Jika Anda belum sebelumnya membuat peran layanan EMR default dan profil contoh EC2, ketik aws emr create-default-roles untuk membuat mereka sebelum mengetik create-cluster subperintah.

  2. Untuk mengirimkan langkah Pig, masukkan perintah berikut, ganti myClusterIddan DOC-EXAMPLE-BUCKET dengan ID klaster dan nama bucket Amazon S3 Anda.

    aws emr add-steps \ --cluster-id myClusterId \ --steps Type=PIG,Name="Pig Program",ActionOnFailure=CONTINUE,Args=[-f,s3://elasticmapreduce/samples/pig-apache/do-reports2.pig,-p,INPUT=s3://elasticmapreduce/samples/pig-apache/input,-p,OUTPUT=s3://DOC-EXAMPLE-BUCKET/pig-apache/output]

    Perintah ini akan mengembalikan ID langkah, yang dapat Anda gunakan untuk memeriksaState langkah Anda.

  3. Query status langkah Anda dengandescribe-step perintah.

    aws emr describe-step --cluster-id myClusterId --step-id s-1XXXXXXXXXXA

    State dari langkah berubah dari PENDING ke RUNNING ke COMPLETED selagi langkah berjalan. Saat langkah Anda selesai, periksa bucket Amazon S3 Anda untuk mengonfirmasi file keluaran langkah Pig Anda ada di sana.

Untuk informasi selengkapnya tentang menggunakan perintah Amazon EMR dalamAWS CLI, lihat ReferensiAWS CLI Perintah.