AWS Glue komponen - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS Glue komponen

AWS Glue menyediakan konsol dan operasi API untuk mengatur dan mengelola beban kerja extract, transform, and load (ETL) Anda. Anda dapat menggunakan operasi API melalui beberapa SDK spesifik-bahasa dan AWS Command Line Interface (AWS CLI). Untuk informasi lebih lanjut tentang menggunakan AWS CLI, lihat Refensi Perintah AWS CLI.

AWS Glue menggunakan AWS Glue Data Catalog untuk menyimpan metadata tentang sumber data, transformasi, dan target. Katalog Data adalah pengganti drop-in untuk Apache Hive Metastore. AWS Glue Jobs system menyediakan infrastruktur terkelola untuk menentukan, penjadwalan, dan menjalankan operasi ETL pada data Anda. Untuk informasi selengkapnya tentang API AWS Glue, lihat API AWS Glue.

Konsol AWS Glue

Anda menggunakan konsol AWS Glue untuk menentukan dan mengatur alur kerja ETL Anda. Konsol memanggil beberapa operasi API di AWS Glue Data Catalog dan AWS Glue Jobs system untuk melakukan tugas berikut:

  • Menentukan objek AWS Glue seperti tugas, tabel, crawler, dan koneksi.

  • Menentukan jadwal kapan crawler berjalan.

  • Menentukan peristiwa atau jadwal untuk pemicu tugas.

  • Mencari dan mem-filter daftar objek AWS Glue.

  • Mengedit skrip transformasi.

AWS Glue Data Catalog

AWS Glue Data CatalogIni adalah penyimpanan metadata teknis persisten Anda di Cloud. AWS

Setiap AWS akun memiliki satu AWS Glue Data Catalog per AWS Wilayah. Setiap Katalog Data adalah kumpulan tabel yang sangat skalabel yang disusun ke dalam database. Tabel adalah representasi metadata dari kumpulan data terstruktur atau semi-terstruktur yang disimpan dalam sumber seperti Amazon RDS, Apache Hadoop Distributed File System, Amazon Service, dan lain-lain. OpenSearch AWS Glue Data CatalogIni menyediakan repositori seragam di mana sistem yang berbeda dapat menyimpan dan menemukan metadata untuk melacak data dalam silo data. Anda kemudian dapat menggunakan metadata untuk menanyakan dan mengubah data tersebut secara konsisten di berbagai aplikasi.

Anda menggunakan Katalog Data bersama dengan AWS Identity and Access Management kebijakan dan Lake Formation untuk mengontrol akses ke tabel dan database. Dengan melakukan ini, Anda dapat mengizinkan grup yang berbeda di perusahaan Anda untuk mempublikasikan data dengan aman ke organisasi yang lebih luas sambil melindungi informasi sensitif dengan cara yang sangat terperinci.

Katalog Data, bersama dengan CloudTrail dan Lake Formation, juga memberi Anda kemampuan audit dan tata kelola yang komprehensif, dengan pelacakan perubahan skema dan kontrol akses data. Hal ini akan membantu memastikan bahwa data tidak dimodifikasi dengan tidak semestinya atau tidak dibagi dengan tidak disengaja.

Untuk informasi tentang mengamankan dan mengauditAWS Glue Data Catalog, lihat:

Berikut ini adalah AWS layanan lain dan proyek sumber terbuka yang menggunakan: AWS Glue Data Catalog

AWS Gluecrawler dan pengklasifikasi

AWS Glue juga memungkinkan Anda mengatur crawler yang dapat memindai data di semua jenis repositori, mengklasifikasikannya, mengekstrak informasi skema darinya, dan menyimpan metadata secara otomatis di AWS Glue Data Catalog. Kemudian, AWS Glue Data Catalog dapat digunakan untuk memandu operasi ETL.

Untuk informasi tentang cara mengatur crawler dan pengklasifikasi, lihat Mendefinisikan crawler di AWS Glue. Untuk informasi tentang cara memprogram crawler dan pengklasifikasi menggunakan API AWS Glue, lihat API Crawler dan Pengklasifikasi.

AWS GlueOperasi ETL

Menggunakan metadata dalam Katalog Data, AWS Glue dapat secara otomatis menghasilkan Scala atau PySpark (API Python untuk Apache Spark) skrip dengan AWS Glue ekstensi yang dapat Anda gunakan dan modifikasi untuk melakukan berbagai operasi ETL. Sebagai contoh, Anda dapat mengekstrak, membersihkan, dan mengubah data mentah, dan kemudian menyimpan hasilnya dalam repositori yang berbeda, di mana data tersebut dapat di-kueri dan dianalisis. Skrip semacam itu mungkin akan mengubah file CSV menjadi bentuk relasional dan menyimpannya di Amazon Redshift.

Untuk informasi selengkapnya tentang cara menggunakan kemampuan ETL AWS Glue, lihat Pemrograman skrip Spark.

Streaming ETL di AWS Glue

AWS Glue memungkinkan Anda untuk melakukan operasi ETL pada streaming data dengan menggunakan tugas yang terus berjalan. Streaming ETL AWS Glue dibangun di atas mesin Apache Spark Structured Streaming, dan dapat menyerap pengaliran dari Amazon Kinesis Data Streams, Apache Kafka, dan Amazon Managed Streaming for Apache Kafka (Amazon MSK). Streaming ETL dapat membersihkan dan men-transformasi data streaming dan memuatnya ke Amazon S3 atau penyimpanan data JDBC. Menggunakan Streaming ETL di AWS Glue untuk memproses data peristiwa seperti pengaliran IoT, clickstream, dan log jaringan.

Jika Anda tahu skema sumber data streaming, Anda dapat menentukannya dalam tabel Katalog Data. Jika tidak, Anda dapat mengaktifkan deteksi skema dalam tugas ETL streaming. Tugas kemudian akan secara otomatis menentukan skema dari data yang masuk.

Tugas streaming ETL dapat menggunakan transformasi bawaan AWS Glue dan transformasi yang asli untuk Apache Spark Stuctured Streaming. Untuk informasi selengkapnya, lihat Operasi pada streaming DataFrames /Datasets di situs web Apache Spark.

Untuk informasi selengkapnya, lihat Lowongan kerja Streaming ETL di AWS Glue.

Sistem AWS Glue pekerjaan

AWS Glue Jobs system menyediakan infrastruktur terkelola untuk mengatur alur kerja ETL Anda. Anda dapat membuat tugas di AWS Glue yang mengotomatisasi skrip yang Anda gunakan untuk mengekstrak, mengubah, dan mentransfer data ke lokasi yang berbeda. Tugas dapat dijadwalkan dan dirangkai, atau mereka dapat dipicu oleh peristiwa seperti peristiwa datangnya data baru.

Untuk informasi selengkapnya tentang menggunakan AWS Glue Jobs system, lihat AWS Glue Pemantauan. Untuk informasi selengkapnya tentang pemrograman menggunakan API AWS Glue Jobs system, lihat API Tugas.

Komponen ETL visual

AWS Gluememungkinkan Anda membuat pekerjaan ETL melalui kanvas visual yang dapat Anda manipulasi.

Tangkapan layar menunjukkan panel sumber daya ditutup.

Menu pekerjaan ETL

Opsi menu di bagian atas kanvas memungkinkan Anda mengakses berbagai tampilan dan detail konfigurasi tentang pekerjaan Anda.

  • Visual - Kanvas editor pekerjaan Visual. Di sinilah Anda dapat menambahkan node untuk membuat pekerjaan.

  • Script — Representasi skrip dari pekerjaan ETL Anda. AWS Gluemenghasilkan skrip berdasarkan representasi visual dari pekerjaan Anda. Anda juga dapat mengedit skrip Anda atau mengunduhnya.

    catatan

    Jika Anda memilih untuk mengedit skrip, pengalaman penulisan pekerjaan secara permanen dikonversi ke mode skrip saja. Setelah itu, Anda tidak dapat menggunakan editor visual untuk mengedit pekerjaan lagi. Anda harus menambahkan semua sumber pekerjaan, transformasi, dan target, dan membuat semua perubahan yang Anda butuhkan dengan editor visual sebelum memilih untuk mengedit skrip.

  • Rincian pekerjaan — Tab Job details memungkinkan Anda mengonfigurasi pekerjaan dengan menetapkan properti pekerjaan. Ada properti dasar, seperti nama dan deskripsi pekerjaan Anda, peran IAM, jenis pekerjaan, AWS Glue versi, bahasa, jenis pekerja, jumlah pekerja, bookmark pekerjaan, eksekusi fleksibel, jumlah pensiunan, dan batas waktu pekerjaan, dan ada properti lanjutan, seperti koneksi, perpustakaan, parameter pekerjaan, dan tag.

  • Berjalan - Setelah pekerjaan Anda berjalan, tab ini dapat diakses untuk melihat pekerjaan Anda sebelumnya berjalan.

  • Kualitas data — Kualitas data mengevaluasi dan memantau kualitas aset data Anda. Anda dapat mempelajari lebih lanjut tentang cara menggunakan kualitas data pada tab ini dan menambahkan transformasi kualitas data ke pekerjaan Anda.

  • Jadwal — Pekerjaan yang telah Anda jadwalkan muncul di tab ini. Jika tidak ada jadwal yang dilampirkan pada pekerjaan ini, maka tab ini tidak dapat diakses.

  • Kontrol versi — Anda dapat menggunakan Git dengan pekerjaan Anda dengan mengonfigurasi pekerjaan Anda ke repositori Git.

Panel ETL visual

Saat Anda bekerja di kanvas, beberapa panel tersedia untuk membantu Anda mengonfigurasi node, atau membantu Anda melihat pratinjau data dan melihat skema keluaran.

  • Properties - Panel Properties muncul ketika Anda memilih node di kanvas Anda.

  • Pratinjau data - Panel pratinjau data menyediakan pratinjau output data sehingga Anda dapat membuat keputusan sebelum menjalankan pekerjaan dan memeriksa output Anda.

  • Skema keluaran — Tab skema Output memungkinkan Anda untuk melihat dan mengedit skema node transformasi Anda.

Mengubah ukuran panel

Anda dapat mengubah ukuran panel Properties di sisi kanan layar dan panel bawah yang berisi tab pratinjau Data dan skema Output dengan mengklik tepi panel dan menyeretnya ke kiri dan kanan atau ke atas dan ke bawah.

  • Panel properti - Ubah ukuran panel properti dengan mengklik dan menyeret tepi kanvas di sisi kanan layar dan seret ke kiri untuk memperluas lebarnya. Secara default, panel diciutkan dan ketika sebuah node dipilih, panel properti terbuka ke ukuran defaultnya.

  • Pratinjau data dan panel skema Output - Ubah ukuran panel bawah dengan mengklik dan menyeret tepi bawah kanvas di bagian bawah layar dan seret ke atas untuk memperluas ketinggiannya. Secara default, panel diciutkan dan ketika sebuah node dipilih, panel bawah terbuka ke ukuran defaultnya.

Kanvas Job

Anda dapat menambahkan, menghapus, dan memindahkan/menyusun ulang node langsung pada kanvas Visual ETL. Anggap saja sebagai ruang kerja Anda untuk membuat pekerjaan ETL yang berfungsi penuh yang dimulai dengan sumber data dan dapat diakhiri dengan target data.

Saat Anda bekerja dengan node di kanvas, Anda memiliki bilah alat yang dapat membantu Anda memperbesar dan memperkecil, menghapus node, membuat atau mengedit koneksi antar node, mengubah orientasi alur pekerjaan, dan membatalkan atau mengulang tindakan.

Tangkapan layar menunjukkan panel sumber daya ditutup.

Bilah alat mengambang ditambatkan ke ukuran kanan atas kanvas dan berisi beberapa gambar yang melakukan tindakan:

  • Ikon tata letak - Ikon pertama di bilah alat adalah ikon tata letak. Secara default, arah pekerjaan visual adalah dari atas ke bawah.Ini mengatur ulang arah pekerjaan visual Anda dengan mengatur node secara horizontal dari kiri ke kanan. Mengklik ikon tata letak lagi mengubah arah kembali ke atas ke bawah.

  • Ikon Recenter - Ikon recenter mengubah tampilan kanvas dengan memusatkannya. Anda dapat menggunakan ini dengan pekerjaan besar untuk kembali ke posisi tengah.

  • Zoom in icon — Zoom in icon memperbesar ukuran node pada kanvas.

  • Ikon zoom out - Ikon zoom out mengurangi ukuran node di kanvas.

  • Ikon sampah - Ikon sampah menghapus simpul dari pekerjaan visual. Anda harus memilih node terlebih dahulu.

  • Ikon batalkan - Ikon batalkan membalikkan tindakan terakhir yang diambil pada pekerjaan visual.

  • Ikon Redo - Ikon redo mengulangi tindakan terakhir yang diambil pada pekerjaan visual.

Menggunakan peta mini

Tangkapan layar menunjukkan tampilan dekat dari peta mini.

Panel sumber daya

Panel sumber daya berisi semua sumber data, mengubah tindakan, dan koneksi yang tersedia untuk Anda. Buka panel sumber daya di kanvas dengan mengklik ikon “+”. Ini akan membuka panel sumber daya.

Untuk menutup panel sumber daya, klik X di sudut kanan atas panel sumber daya. Ini akan menyembunyikan panel sampai Anda siap untuk membukanya lagi.

Tangkapan layar menunjukkan panel sumber daya saat terbuka.

Di bagian atas panel adalah kumpulan transformasi & data Populer. Node ini biasanya digunakan diAWS Glue. Pilih satu untuk menambahkannya ke kanvas. Anda juga dapat menyembunyikan Transformasi & data Populer dengan mengklik segitiga di sebelah judul Transformasi & data Populer.

Di bawah bagian Transformasi & data Populer, Anda dapat mencari transformasi dan node sumber data. Hasil muncul saat Anda mengetik. Semakin banyak huruf yang Anda tambahkan ke permintaan pencarian Anda, daftar hasil akan semakin kecil. Hasil pencarian diisi dari nama node dan/atau deskripsi. Pilih node untuk menambahkannya ke kanvas Anda.

Transformasi dan Data

Ada dua tab yang mengatur node menjadi Transforms dan Data.

Transformasi — Saat Anda memilih tab Transformasi, semua transformasi yang tersedia dapat dipilih. Pilih transformasi untuk menambahkannya ke kanvas. Anda juga dapat memilih Add Transform di bagian bawah daftar Transforms yang akan membuka halaman baru ke dokumentasi untuk membuat transformasi visual Kustom. Mengikuti langkah-langkah akan memungkinkan Anda untuk membuat transformasi Anda sendiri. Transformasi Anda kemudian akan muncul dalam daftar transformasi yang tersedia.

Data — Tab data berisi semua node untuk Sumber dan Target. Anda dapat menyembunyikan Sumber dan Target dengan mengklik segitiga di sebelah judul Sumber atau Target. Anda dapat menampilkan Sumber dan Target dengan mengklik segitiga lagi. Pilih sumber atau target node untuk menambahkannya ke kanvas. Anda juga dapat memilih Kelola Koneksi untuk menambahkan koneksi baru. Ini akan membuka halaman Konektor di konsol.