Memulai dengan AWS Data Pipeline - AWS Data Pipeline

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memulai dengan AWS Data Pipeline

AWS Data Pipeline membantu Anda mengurutkan, menjadwalkan, menjalankan, dan mengelola beban kerja pemrosesan data berulang dengan andal dan hemat biaya. Layanan ini memudahkan Anda merancang aktivitas extract-transform-load (ETL) menggunakan data terstruktur dan tidak terstruktur, baik lokal maupun di cloud, berdasarkan logika bisnis Anda.

Untuk menggunakan AWS Data Pipeline, Anda membuat definisi alur yang menentukan logika bisnis untuk pemrosesan data Anda. Definisi pipeline khas terdiri dari aktivitas yang menentukan pekerjaan yang akan dilakukan, dan node data yang menentukan lokasi dan jenis data input dan output.

Dalam tutorial ini, Anda menjalankan skrip perintah shell yang menghitung jumlah permintaan GET di log server web Apache. Alur ini berjalan setiap 15 menit selama satu jam, dan menulis output ke Amazon S3 pada setiap iterasi.

Prasyarat

Sebelum Anda memulai, selesaikan tugas di Pengaturan untuk AWS Data Pipeline.

Objek Alur

Alur menggunakan objek berikut:

ShellCommandActivity

Membaca berkas log input dan menghitung jumlah kesalahan.

S3 DataNode (input)

Bucket S3 yang berisi berkas log input.

S3 DataNode (output)

Bucket S3 untuk output.

Ec2Resource

Sumber daya komputasi yang digunakan AWS Data Pipeline untuk melakukan aktivitas.

Perhatikan bahwa jika Anda memiliki data berkas log dalam jumlah besar, Anda dapat mengonfigurasi alur Anda untuk menggunakan klaster EMR untuk memproses file alih-alih instans EC2.

Jadwal

Mendefinisikan bahwa aktivitas tersebut dilakukan setiap 15 menit selama satu jam.

Membuat Alur

Cara tercepat untuk memulai dengan AWS Data Pipeline adalah dengan menggunakan definisi alur yang disebut templat.

Untuk membuat alur
  1. Buka konsol AWS Data Pipeline tersebut di https://console.aws.amazon.com/datapipeline/.

  2. Dari bilah navigasi, pilih wilayah. Anda dapat memilih wilayah mana pun yang tersedia untuk Anda, di mana pun lokasi Anda. Banyak sumber daya AWS khusus untuk suatu wilayah, tetapi AWS Data Pipeline memungkinkan Anda menggunakan sumber daya yang berada di wilayah yang berbeda dari alur.

  3. Layar pertama yang Anda lihat bergantung pada apakah Anda telah membuat alur di wilayah saat ini.

    1. Jika Anda belum membuat alur di wilayah ini, konsol tersebut akan menampilkan layar perkenalan. Pilih Mulai Sekarang.

    2. Jika Anda telah membuat alur di wilayah ini, konsol akan menampilkan halaman yang mencantumkan alur Anda untuk wilayah tersebut. Pilih Buat alur baru.

  4. Di Nama, masukkan nama untuk alur Anda.

  5. (Opsional) Di Deskripsi, masukkan deskripsi untuk alur Anda.

  6. Untuk Sumber, pilih Bangun menggunakan template, lalu pilih template berikut: Memulai penggunaan ShellCommandActivity.

  7. Di bawah bagian Parameter, yang terbuka saat Anda memilih templat, biarkan folder input S3 dan perintah Shell untuk dijalankan dengan nilai defaultnya. Klik ikon folder di sebelah folder output S3, pilih salah satu bucket atau folder Anda, lalu klik Pilih.

  8. Di bawah Jadwal, biarkan nilai default. Saat Anda mengaktifkan alur, alur mulai berjalan, dan kemudian lanjutkan setiap 15 menit selama satu jam.

    Jika mau, Anda dapat memilih Jalankan sekali pada aktivasi alur sebagai gantinya.

  9. Di bawah Konfigurasi Alur, biarkan pencatatan diaktifkan. Pilih ikon folder di bawah lokasi S3 untuk log, pilih salah satu bucket atau folder Anda, lalu pilih Pilih.

    Jika mau, Anda dapat menonaktifkan pencatatan sebagai gantinya.

  10. Di bawah Keamanan/Akses, biarkan IAM role diatur ke Default.

  11. Klik Aktifkan.

    Jika Anda mau, Anda dapat memilih Edit di Arsitek untuk memodifikasi alur ini. Misalnya, Anda dapat menambahkan prasyarat.

Memantau Alur Berjalan

Setelah Anda mengaktifkan alur Anda, Anda akan dibawa ke halaman Detail eksekusi di mana Anda dapat memantau kemajuan alur Anda.

Untuk memantau kemajuan alur Anda
  1. Klik Perbarui atau tekan F5 untuk memperbarui status yang ditampilkan.

    Tip

    Jika tidak ada proses berjalan yang terdaftar, pastikan bahwa Mulai (dalam UTC) dan Akhir (dalam UTC) mencakup awal dan akhir yang dijadwalkan dari alur Anda, lalu klik Perbarui.

  2. Ketika status setiap objek dalam alur Anda adalah FINISHED, alur Anda telah berhasil menyelesaikan tugas yang dijadwalkan.

  3. Jika alur Anda tidak berhasil diselesaikan, periksa pengaturan alur Anda untuk masalah. Untuk informasi selengkapnya tentang pemecahan masalah yang gagal atau tidak lengkapnya proses instans dari alur Anda, lihat Menyelesaikan Masalah Umum.

Lihat Output

Buka konsol Amazon S3 dan navigasikan ke bucket Anda. Jika Anda menjalankan alur Anda setiap 15 menit selama satu jam, Anda akan melihat empat subfolder yang diberi stempel waktu. Setiap subfolder berisi output dalam file dengan nama output.txt. Karena kami menjalankan skrip pada file input yang sama setiap kali, file output menjadi identik.

Hapus Alur

Untuk berhenti dikenakan biaya, hapus alur Anda. Menghapus alur Anda akan menghapus definisi alur dan semua objek terkait.

Untuk menghapus alur Anda
  1. Pada halaman Daftar Alur, pilih alur Anda.

  2. Klik Tindakan, lalu pilih Hapus.

  3. Saat diminta konfirmasi, pilih Delete (Hapus).

Jika Anda selesai dengan output dari tutorial ini, hapus folder output dari bucket Amazon S3 Anda.