Kirim hasil karya Pig - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kirim hasil karya Pig

Bagian ini menunjukkan mengirimkan Pig bekerja untuk cluster Amazon EMR. Contoh berikut menghasilkan laporan yang berisi total byte yang ditransfer, daftar 50 alamat IP teratas, daftar 50 referer eksternal teratas, dan 50 istilah penelusuran teratas menggunakan Bing dan Google. Skrip Pig terletak di bucket Amazon S3 s3://elasticmapreduce/samples/pig-apache/do-reports2.pig. Data masukan terletak di bucket Amazon S3 s3://elasticmapreduce/samples/pig-apache/input. Output disimpan ke bucket Amazon S3.

Kirim Pig bekerja menggunakan konsol Amazon EMR

Contoh ini menjelaskan cara menggunakan konsol Amazon EMR.

Untuk mengirimkan langkah Pig
  1. Buka konsol EMR Amazon di https://console.aws.amazon.com/emr.

  2. Pilih Buat cluster untuk membuat cluster dengan Pig diinstal. Untuk langkah-langkah tentang cara membuat klaster, lihat Merencanakan dan mengonfigurasi klaster EMR Amazon.

  3. Buka terminal dan SSH ke master node cluster Anda mengikuti langkah-langkah yang diuraikan dalam Connect to the master node menggunakan SSH. Setelah Anda melakukannya, jalankan langkah-langkah berikut.

    sudo mkdir -p /home/hadoop/lib/pig/ sudo aws s3 cp s3://elasticmapreduce/libs/pig/0.3/piggybank-0.3-amzn.jar /home/hadoop/lib/pig/piggybank.jar
  4. Di konsol, klik Daftar Cluster dan pilih nama cluster yang Anda buat.

  5. Gulir ke bagian Langkah dan perluas, lalu pilih Tambahkan langkah.

  6. Di Tambah Langkah dialog:

    • Untuk Jenis langkah, pilih Program Pig.

    • Untuk Nama, menerima nama default (program Pig) atau ketik nama baru.

    • Untuk Lokasi Script S3, ketik lokasi skrip Pig. Sebagai contoh: s3://elasticmapreduce/samples/pig-apache/do-reports2.pig.

    • Untuk Masukan lokasi S3, ketik lokasi input data. Sebagai contoh: s3://elasticmapreduce/samples/pig-apache/input.

    • Untuk Lokasi Output S3, ketik atau jelajahi nama bucket Amazon S3.

    • Untuk Pendapat, biarkan kosong.

    • Untuk Tindakan pada kegagalan, terima opsi default (Lanjutkan).

  7. Pilih Tambahkan. Langkah muncul di konsol dengan status Tertunda.

  8. Status langkah perubahan dari Tertunda ke Sedang Berjalan hingga Selesai sebagai langkah berjalan. Untuk memperbarui status, pilih ikon Segarkan di atas kolom Tindakan. Saat langkah Anda selesai, periksa bucket Amazon S3 Anda untuk mengonfirmasi file keluaran langkah Babi Anda ada di sana.

Kirim pekerjaan Pig menggunakan AWS CLI

Untuk mengirimkan langkah Pig menggunakan AWS CLI

Ketika Anda meluncurkan sebuah cluster menggunakan AWS CLI, menggunakan --applications parameter untuk menginstal Pig. Untuk mengirimkan langkah Pig, gunakan --steps Parameter.

  1. Untuk meluncurkan cluster dengan Pig diinstal, ketik perintah berikut, ganti myKey dan DOC-EXAMPLE-BUCKET/ dengan nama key pair EC2 dan bucket Amazon S3 Anda.

    aws emr create-cluster \ --name "Test cluster" \ --log-uri s3://DOC-EXAMPLE-BUCKET/ \ --release-label emr-5.36.1 \ --applications Name=Pig \ --use-default-roles \ --ec2-attributes KeyName=myKey \ --instance-type m5.xlarge \ --instance-count 3
    catatan

    Karakter lanjutan baris Linux (\) disertakan agar mudah dibaca Karakter ini bisa dihapus atau digunakan dalam perintah Linux. Untuk Windows, hapus atau ganti dengan tanda sisipan (^).

    Ketika Anda menentukan jumlah instans tanpa menggunakan --instance-groups parameter, simpul utama tunggal diluncurkan, dan instans yang tersisa diluncurkan sebagai simpul inti. Semua node menggunakan jenis contoh yang ditentukan dalam perintah.

    catatan

    Jika Anda belum sebelumnya membuat peran layanan EMR default dan profil contoh EC2, ketik aws emr create-default-roles untuk membuat mereka sebelum mengetik create-cluster subperintah.

  2. Untuk mengirimkan langkah Babi, masukkan perintah berikut, ganti myClusterIddan DOC-EXAMPLE-BUCKET dengan ID cluster dan nama bucket Amazon S3 Anda.

    aws emr add-steps \ --cluster-id myClusterId \ --steps Type=PIG,Name="Pig Program",ActionOnFailure=CONTINUE,Args=[-f,s3://elasticmapreduce/samples/pig-apache/do-reports2.pig,-p,INPUT=s3://elasticmapreduce/samples/pig-apache/input,-p,OUTPUT=s3://DOC-EXAMPLE-BUCKET/pig-apache/output]

    Perintah ini akan mengembalikan ID langkah, yang dapat Anda gunakan untuk memeriksa langkah Anda. State

  3. Kueri status langkah Anda dengan describe-step perintah.

    aws emr describe-step --cluster-id myClusterId --step-id s-1XXXXXXXXXXA

    State dari langkah berubah dari PENDING ke RUNNING ke COMPLETED selagi langkah berjalan. Saat langkah Anda selesai, periksa bucket Amazon S3 Anda untuk mengonfirmasi file keluaran langkah Babi Anda ada di sana.

Untuk informasi selengkapnya tentang menggunakan perintah EMR Amazon diAWS CLI, lihat Referensi AWS CLIPerintah.