Pekerjaan ETL tanpa server berjalan secara terpisah

AWS Glue: Cara kerjanya

AWS Glue menggunakan AWS layanan lain untuk mengatur pekerjaan ETL (ekstrak, transformasi, dan muat) Anda untuk membangun gudang data dan danau data dan menghasilkan aliran keluaran. AWS Glue memanggil operasi API untuk mengubah data Anda, membuat log runtime, menyimpan logika pekerjaan Anda, dan membuat notifikasi untuk membantu Anda memantau proses pekerjaan Anda. Bagian AWS Glue konsol menghubungkan layanan ini ke dalam aplikasi terkelola, sehingga Anda dapat fokus pada pembuatan dan pemantauan pekerjaan ETL Anda. Konsol melakukan operasi pengembangan administratif dan tugas atas nama Anda. Anda menyediakan kredensi dan properti lainnya ke AWS Glue untuk mengakses sumber data Anda dan menulis ke target data Anda.

AWS Glue mengurus penyediaan dan pengelolaan sumber daya yang diperlukan untuk menjalankan beban kerja Anda. Anda tidak perlu membuat infrastruktur untuk alat ETL karena AWS Glue melakukannya untuk Anda. Ketika sumber daya diperlukan, untuk mengurangi waktu startup, AWS Glue menggunakan instance dari kumpulan instance hangatnya untuk menjalankan beban kerja Anda.

Dengan AWS Glue, Anda membuat pekerjaan menggunakan definisi tabel di Katalog Data Anda. Pekerjaan terdiri dari skrip yang berisi instruksi yang menjalankan tugas transformasi data yang diinginkan. Anda menggunakan pemicu untuk memulai tugas baik pada jadwal atau sebagai akibat dari peristiwa tertentu. Anda menentukan di mana data target Anda berada dan data sumber mana yang mengisi target Anda. Berdasarkan masukan Anda, AWS Glue mengubah data Anda dari sumber ke format target. Atau, Anda juga dapat memberikan skrip khusus di AWS Glue konsol atau API untuk memproses data Anda sesuai dengan kebutuhan spesifik Anda.

Sumber data dan tujuan

AWS Glue untuk Spark memungkinkan Anda untuk membaca dan menulis data dari berbagai sistem dan database termasuk:

Amazon S3
Amazon DynamoDB
Amazon Redshift
Amazon Relational Database Service (Amazon RDS)
Basis dapat diakses JDBC pihak ketiga
MongoDB dan Amazon DocumentDB (dengan kompatibilitas MongoDB)
Konektor pasar lainnya dan plugin Apache Spark

Aliran data

AWS Glue untuk Spark dapat mengalirkan data dari sistem berikut:

Amazon Kinesis Data Streams
Apache Kafka

AWS Glue tersedia di beberapa AWS Wilayah. Untuk informasi selengkapnya, lihat AWS Wilayah dan Titik Akhir di. Referensi Umum Amazon Web

Topik

Pekerjaan ETL tanpa server berjalan secara terpisah

AWS Glue menjalankan pekerjaan ETL Anda di lingkungan tanpa server dengan mesin pilihan Anda, Spark atau Ray. AWS Glue menjalankan pekerjaan ini pada sumber daya virtual yang disediakan dan dikelola di akun layanannya sendiri.

AWS Glue dirancang untuk melakukan hal berikut:

Memisahkan data pelanggan.
Melindungi data pelanggan saat transit dan saat tidak aktif.
Mengakses data pelanggan hanya jika diperlukan dalam menanggapi permintaan pelanggan, menggunakan kredensial sementara, melakukan scope-down pada kredensial, atau dengan persetujuan pelanggan, pada IAM role di akun mereka.

Selama penyediaan tugas ETL, Anda menyediakan sumber data input dan target data output di virtual private cloud (VPC) Anda. Selain itu, Anda memberikan IAM role, VPC ID, subnet ID, dan grup keamanan yang diperlukan untuk mengakses sumber data dan target. Untuk setiap tuple (ID akun pelanggan, peran IAM, subnet ID, dan grup keamanan), AWS Glue menciptakan lingkungan baru yang terisolasi di tingkat jaringan dan manajemen dari semua lingkungan lain di dalam AWS Glue akun layanan.

Anda membuat dan mengonfigurasi AWS Glue sumber daya, seperti Katalog Data, Pekerjaan, dan Perayap dalam akun Anda. AWS Sumber daya ini kemudian dikaitkan dengan peran IAM dan pengaturan jaringan (subnet dan grup keamanan) yang Anda tentukan selama proses pembuatan.

AWS Glue membuat antarmuka jaringan elastis di subnet Anda menggunakan alamat IP pribadi. Pekerjaan menggunakan antarmuka jaringan elastis ini untuk mengakses sumber data dan target data Anda. Lalu lintas masuk, keluar, dan di dalam lingkungan yang dijalankan pekerjaan diatur oleh VPC dan kebijakan jaringan Anda dengan satu pengecualian: Panggilan dibuat ke AWS Glue perpustakaan dapat mem-proxy lalu lintas ke AWS Glue Operasi API melalui AWS Glue VPC. Semua AWS Glue Panggilan API dicatat; dengan demikian, pemilik data dapat mengaudit akses API dengan mengaktifkan AWS CloudTrail, yang mengirimkan log audit ke akun Anda.

AWS Glue lingkungan terkelola yang menjalankan pekerjaan ETL Anda dilindungi dengan praktik keamanan yang sama diikuti oleh AWS layanan lain. Untuk gambaran umum tentang praktik dan tanggung jawab keamanan bersama, lihat whitepaper Pengantar Proses AWS Keamanan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Apa itu AWS Glue?

Konsep