Migrasikan beban kerja dari ke AWS Data Pipeline Amazon MWAA - Amazon Managed Workflows for Apache Airflow (MWAA)

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Migrasikan beban kerja dari ke AWS Data Pipeline Amazon MWAA

AWS meluncurkan AWS Data Pipeline layanan pada tahun 2012. Pada saat itu, pelanggan menginginkan layanan yang memungkinkan mereka menggunakan berbagai opsi komputasi untuk memindahkan data antara sumber data yang berbeda. Karena kebutuhan transfer data berubah dari waktu ke waktu, begitu juga solusi untuk kebutuhan tersebut. Anda sekarang memiliki opsi untuk memilih solusi yang paling sesuai dengan kebutuhan bisnis Anda. Anda dapat memigrasikan beban kerja Anda ke salah satu layanan berikut: AWS

  • Gunakan Alur Kerja Terkelola Amazon untuk Apache Airflow (Amazon MWAA) untuk mengelola orkestrasi alur kerja untuk Apache Airflow.

  • Gunakan Step Functions untuk mengatur alur kerja antara beberapa. Layanan AWS

  • Gunakan AWS Glue untuk menjalankan dan mengatur aplikasi Apache Spark.

Opsi yang Anda pilih tergantung pada beban kerja Anda saat ini. AWS Data Pipeline Topik ini menjelaskan cara bermigrasi dari AWS Data Pipeline ke Amazon MWAA.

Memilih Amazon MWAA

Amazon Managed Workflows for Apache Airflow (Amazon MWAA) adalah layanan orkestrasi terkelola untuk Apache Airflow yang memungkinkan Anda mengatur dan mengoperasikan pipeline data di cloud dalam skala besar. end-to-end Apache Airflow adalah alat sumber terbuka yang digunakan untuk secara terprogram membuat, menjadwalkan, dan memantau urutan proses dan tugas yang disebut sebagai alur kerja. Dengan Amazon MWAA, Anda dapat menggunakan Apache Airflow dan bahasa pemrograman Python untuk membuat alur kerja tanpa harus mengelola infrastruktur yang mendasarinya untuk skalabilitas, ketersediaan, dan keamanan. Amazon MWAA secara otomatis menskalakan kapasitas alur kerjanya untuk memenuhi kebutuhan Anda, dan terintegrasi dengan layanan AWS keamanan untuk membantu memberi Anda akses cepat dan aman ke data Anda.

Berikut ini menyoroti beberapa manfaat bermigrasi dari AWS Data Pipeline ke Amazon MWAA:

  • Peningkatan skalabilitas dan kinerja - Amazon MWAA menyediakan kerangka kerja yang fleksibel dan dapat diskalakan untuk menentukan dan mengeksekusi alur kerja. Hal ini memungkinkan pengguna untuk menangani alur kerja yang besar dan kompleks dengan mudah, dan memanfaatkan fitur seperti penjadwalan tugas dinamis, alur kerja berbasis data, dan paralelisme.

  • Pemantauan dan pencatatan yang ditingkatkan - Amazon MWAA terintegrasi dengan Amazon CloudWatch untuk meningkatkan pemantauan dan pencatatan alur kerja Anda. Amazon MWAA secara otomatis mengirimkan metrik dan log sistem ke. CloudWatch Ini berarti Anda dapat melacak kemajuan dan kinerja alur kerja Anda secara real-time, dan mengidentifikasi masalah apa pun yang muncul.

  • Integrasi yang lebih baik dengan AWS layanan dan perangkat lunak pihak ketiga — Amazon MWAA terintegrasi dengan berbagai AWS layanan lain, seperti Amazon S3,, dan AWS Glue Amazon Redshift, serta perangkat lunak pihak ketiga seperti DBT, Snowflake, dan Databricks. Ini memungkinkan Anda memproses, dan mentransfer, data di berbagai lingkungan dan layanan.

  • Alat pipa data sumber terbuka — Amazon MWAA memanfaatkan produk Apache Airflow sumber terbuka yang sama dengan yang Anda kenal. Apache Airflow adalah alat yang dibuat khusus yang dirancang untuk menangani semua aspek manajemen pipa data, termasuk konsumsi, pemrosesan, transfer, pengujian integritas, pemeriksaan kualitas, dan memastikan garis keturunan data.

  • Arsitektur modern dan fleksibel — Amazon MWAA memanfaatkan kontainerisasi dan teknologi cloud-native, tanpa server. Ini berarti lebih banyak fleksibilitas dan portabilitas, serta penyebaran dan pengelolaan lingkungan alur kerja Anda yang lebih mudah.

Arsitektur dan pemetaan konsep

AWS Data Pipeline dan Amazon MWAA memiliki arsitektur dan komponen yang berbeda, yang dapat memengaruhi proses migrasi dan cara alur kerja didefinisikan dan dijalankan. Bagian ini meninjau arsitektur dan komponen untuk kedua layanan, dan menyoroti beberapa perbedaan utama.

Keduanya AWS Data Pipeline dan Amazon MWAA adalah layanan yang dikelola sepenuhnya. Saat memigrasikan beban kerja ke Amazon MWAA, Anda mungkin perlu mempelajari konsep baru untuk memodelkan alur kerja yang ada menggunakan Apache Airflow. Namun, Anda tidak perlu mengelola infrastruktur, menambal pekerja, dan mengelola pembaruan sistem operasi.

Tabel berikut mengaitkan konsep-konsep kunci AWS Data Pipeline dengan yang ada di Amazon MWAA. Gunakan informasi ini sebagai titik awal untuk merancang rencana migrasi.

Konsep AWS Data Pipeline Amazon MWAA
Definisi pipa AWS Data Pipeline menggunakan file konfigurasi berbasis JSON yang mendefinisikan alur kerja. Amazon MWAA menggunakan Directed Acyclic Graphs () berbasis Python yang menentukan alur kerja. DAGs
Lingkungan eksekusi pipa Alur kerja berjalan di EC2 instans Amazon. AWS Data Pipeline menyediakan dan mengelola instans ini atas nama Anda. Amazon MWAA menggunakan lingkungan kontainer Amazon ECS untuk menjalankan tugas.
Komponen pipa Aktivitas adalah memproses tugas yang berjalan sebagai bagian dari alur kerja. Operator (Tugas) adalah unit pemrosesan dasar dari alur kerja.
Prasyarat berisi pernyataan kondisional yang harus benar sebelum suatu aktivitas dapat dijalankan. Sensor (Tugas) mewakili pernyataan bersyarat yang dapat menunggu sumber daya atau tugas diselesaikan sebelum dijalankan.
Sumber daya AWS Data Pipeline mengacu pada sumber daya AWS komputasi yang melakukan pekerjaan yang ditentukan oleh aktivitas pipeline. Amazon EC2 dan Amazon EMR adalah dua sumber daya yang tersedia. Menggunakan tugas dalam DAG, Anda dapat menentukan berbagai sumber daya komputasi, termasuk Amazon ECS, Amazon EMR, dan Amazon EKS. Amazon MWAA menjalankan operasi Python pada pekerja yang berjalan di Amazon ECS.
Eksekusi alur AWS Data Pipeline mendukung penjadwalan berjalan dengan pola berbasis tarif reguler, dan berbasis cron. Amazon MWAA mendukung penjadwalan dengan ekspresi cron dan preset, serta jadwal khusus.
Sebuah instance mengacu pada setiap proses pipa. DAG run mengacu pada setiap proses alur kerja Apache Airflow.
Upaya mengacu pada percobaan ulang operasi yang gagal. Amazon MWAA mendukung percobaan ulang yang Anda tentukan baik di level DAG, atau di tingkat tugas.

Contoh implementasi

Dalam banyak kasus, Anda akan dapat menggunakan kembali sumber daya yang saat ini Anda atur setelah AWS Data Pipeline bermigrasi ke Amazon MWAA. Daftar berikut berisi contoh implementasi menggunakan Amazon MWAA untuk kasus penggunaan yang paling umum. AWS Data Pipeline

Untuk tutorial dan contoh tambahan, lihat berikut ini:

Perbandingan harga

Harga untuk AWS Data Pipeline didasarkan pada jumlah pipa, serta seberapa banyak Anda menggunakan setiap pipa. Aktivitas yang Anda jalankan lebih dari sekali sehari (frekuensi tinggi) berharga $1 per bulan per aktivitas. Aktivitas yang Anda jalankan sekali sehari atau kurang (frekuensi rendah) berharga $0,60 per bulan per aktivitas. Pipa Tidak Aktif dihargai $1 per pipa. Untuk informasi lebih lanjut, lihat halaman harga AWS Data Pipeline.

Harga untuk Amazon MWAA didasarkan pada durasi waktu di mana lingkungan Apache Airflow terkelola Anda ada, dan setiap penskalaan otomatis tambahan yang diperlukan untuk menyediakan lebih banyak pekerja, atau kapasitas penjadwal. Anda membayar untuk penggunaan lingkungan Amazon MWAA Anda setiap jam (ditagih pada resolusi satu detik), dengan biaya yang bervariasi tergantung pada ukuran lingkungan. Amazon MWAA secara otomatis menskalakan jumlah pekerja berdasarkan konfigurasi lingkungan Anda. AWS menghitung biaya pekerja tambahan secara terpisah. Untuk informasi lebih lanjut tentang biaya per jam menggunakan berbagai ukuran lingkungan Amazon MWAA, lihat halaman harga Amazon MWAA.

Sumber daya terkait

Untuk informasi selengkapnya dan praktik terbaik untuk menggunakan Amazon MWAA, lihat sumber daya berikut: