Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

AWS Glue komponen

Mode fokus
AWS Glue komponen - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS Glue menyediakan operasi konsol dan API untuk menyiapkan dan mengelola beban kerja ekstrak, transformasi, dan pemuatan (ETL) Anda. Anda dapat menggunakan operasi API melalui beberapa bahasa khusus SDKs dan AWS Command Line Interface ()AWS CLI. Untuk informasi tentang penggunaan AWS CLI, lihat Referensi AWS CLI Perintah.

AWS Glue menggunakan AWS Glue Data Catalog untuk menyimpan metadata tentang sumber data, transformasi, dan target. Katalog Data adalah pengganti drop-in untuk Apache Hive Metastore. AWS Glue Jobs system Ini menyediakan infrastruktur terkelola untuk mendefinisikan, menjadwalkan, dan menjalankan operasi ETL pada data Anda. Untuk informasi selengkapnya tentang AWS Glue API, lihatAWS Glue API.

AWS Glue konsol

Anda menggunakan AWS Glue konsol untuk menentukan dan mengatur alur kerja ETL Anda. Konsol memanggil beberapa operasi API di AWS Glue Data Catalog dan AWS Glue Jobs system untuk melakukan tugas-tugas berikut:

  • Tentukan AWS Glue objek seperti pekerjaan, tabel, crawler, dan koneksi.

  • Menentukan jadwal kapan crawler berjalan.

  • Menentukan peristiwa atau jadwal untuk pemicu tugas.

  • Cari dan filter daftar AWS Glue objek.

  • Mengedit skrip transformasi.

AWS Glue Data Catalog

AWS Glue Data Catalog Ini adalah penyimpanan metadata teknis persisten Anda di Cloud. AWS

Setiap AWS akun memiliki satu AWS Glue Data Catalog per AWS Wilayah. Setiap Katalog Data adalah kumpulan tabel yang sangat skalabel yang disusun ke dalam database. Tabel adalah representasi metadata dari kumpulan data terstruktur atau semi-terstruktur yang disimpan dalam sumber seperti Amazon RDS, Apache Hadoop Distributed File System, Amazon Service, dan lain-lain. OpenSearch AWS Glue Data Catalog Ini menyediakan repositori seragam di mana sistem yang berbeda dapat menyimpan dan menemukan metadata untuk melacak data dalam silo data. Anda kemudian dapat menggunakan metadata untuk menanyakan dan mengubah data tersebut secara konsisten di berbagai aplikasi.

Anda menggunakan Katalog Data bersama dengan AWS Identity and Access Management kebijakan dan Lake Formation untuk mengontrol akses ke tabel dan database. Dengan melakukan ini, Anda dapat mengizinkan grup yang berbeda di perusahaan Anda untuk mempublikasikan data dengan aman ke organisasi yang lebih luas sambil melindungi informasi sensitif dengan cara yang sangat terperinci.

Katalog Data, bersama dengan CloudTrail dan Lake Formation, juga memberi Anda kemampuan audit dan tata kelola yang komprehensif, dengan pelacakan perubahan skema dan kontrol akses data. Hal ini akan membantu memastikan bahwa data tidak dimodifikasi dengan tidak semestinya atau tidak dibagi dengan tidak disengaja.

Untuk informasi tentang mengamankan dan mengaudit AWS Glue Data Catalog, lihat:

Berikut ini adalah AWS layanan lain dan proyek sumber terbuka yang menggunakan: AWS Glue Data Catalog

AWS Glue crawler dan pengklasifikasi

AWS Glue juga memungkinkan Anda mengatur crawler yang dapat memindai data di semua jenis repositori, mengklasifikasikannya, mengekstrak informasi skema darinya, dan menyimpan metadata secara otomatis di file. AWS Glue Data Catalog Kemudian AWS Glue Data Catalog dapat digunakan untuk memandu operasi ETL.

Untuk informasi tentang cara mengatur crawler dan pengklasifikasi, lihat Menggunakan crawler untuk mengisi Katalog Data . Untuk informasi tentang cara memprogram crawler dan pengklasifikasi menggunakan AWS Glue API, lihat. Crawler dan classifiers API

AWS Glue Operasi ETL

Menggunakan metadata dalam Katalog Data, AWS Glue dapat secara otomatis menghasilkan Scala atau PySpark (API Python untuk Apache Spark) skrip dengan AWS Glue ekstensi yang dapat Anda gunakan dan modifikasi untuk melakukan berbagai operasi ETL. Sebagai contoh, Anda dapat mengekstrak, membersihkan, dan mengubah data mentah, dan kemudian menyimpan hasilnya dalam repositori yang berbeda, di mana data tersebut dapat di-kueri dan dianalisis. Skrip semacam itu mungkin akan mengubah file CSV menjadi bentuk relasional dan menyimpannya di Amazon Redshift.

Untuk informasi selengkapnya tentang cara menggunakan kemampuan AWS Glue ETL, lihatPemrograman skrip Spark.

Streaming ETL di AWS Glue

AWS Glue memungkinkan Anda untuk melakukan operasi ETL pada streaming data menggunakan pekerjaan yang terus berjalan. AWS Glue streaming ETL dibangun di atas mesin Streaming Terstruktur Apache Spark, dan dapat menelan aliran dari Amazon Kinesis Data Streams, Apache Kafka, dan Amazon Managed Streaming untuk Apache Kafka (Amazon MSK). Streaming ETL dapat membersihkan dan men-transformasi data streaming dan memuatnya ke Amazon S3 atau penyimpanan data JDBC. Gunakan Streaming ETL AWS Glue untuk memproses data peristiwa seperti aliran IoT, aliran klik, dan log jaringan.

Jika Anda tahu skema sumber data streaming, Anda dapat menentukannya dalam tabel Katalog Data. Jika tidak, Anda dapat mengaktifkan deteksi skema dalam tugas ETL streaming. Tugas kemudian akan secara otomatis menentukan skema dari data yang masuk.

Pekerjaan streaming ETL dapat menggunakan transformasi dan transformasi AWS Glue bawaan yang asli dari Apache Spark Structured Streaming. Untuk informasi selengkapnya, lihat Operasi pada streaming DataFrames /Datasets di situs web Apache Spark.

Untuk informasi selengkapnya, lihat Lowongan kerja Streaming ETL di AWS Glue.

Sistem AWS Glue pekerjaan

AWS Glue Jobs system Menyediakan infrastruktur terkelola untuk mengatur alur kerja ETL Anda. Anda dapat membuat pekerjaan AWS Glue yang mengotomatiskan skrip yang Anda gunakan untuk mengekstrak, mengubah, dan mentransfer data ke lokasi yang berbeda. Tugas dapat dijadwalkan dan dirangkai, atau mereka dapat dipicu oleh peristiwa seperti peristiwa datangnya data baru.

Untuk informasi lebih lanjut tentang menggunakan AWS Glue Jobs system, lihatPemantauan AWS Glue. Untuk informasi selengkapnya tentang pemrograman menggunakan API AWS Glue Jobs system , lihat API Tugas.

Komponen ETL visual

AWS Glue memungkinkan Anda membuat pekerjaan ETL melalui kanvas visual yang dapat Anda manipulasi.

Tangkapan layar menunjukkan panel sumber daya ditutup.

Menu pekerjaan ETL

Opsi menu di bagian atas kanvas memungkinkan Anda mengakses berbagai tampilan dan detail konfigurasi tentang pekerjaan Anda.

  • Visual - Kanvas editor pekerjaan Visual. Di sinilah Anda dapat menambahkan node untuk membuat pekerjaan.

  • Script — Representasi skrip dari pekerjaan ETL Anda. AWS Glue menghasilkan skrip berdasarkan representasi visual dari pekerjaan Anda. Anda juga dapat mengedit skrip Anda atau mengunduhnya.

    catatan

    Jika Anda memilih untuk mengedit skrip, pengalaman penulisan pekerjaan secara permanen dikonversi ke mode skrip saja. Setelah itu, Anda tidak dapat menggunakan editor visual untuk mengedit pekerjaan lagi. Anda harus menambahkan semua sumber pekerjaan, transformasi, dan target, dan membuat semua perubahan yang Anda butuhkan dengan editor visual sebelum memilih untuk mengedit skrip.

  • Job details — Tab Job details memungkinkan Anda mengonfigurasi pekerjaan dengan menyetel properti lowongan kerja. Ada properti dasar, seperti nama dan deskripsi pekerjaan Anda, peran IAM, jenis pekerjaan, versi AWS Glue, bahasa, jenis pekerja, jumlah pekerja, bookmark pekerjaan, eksekusi fleksibel, jumlah pensiunan, dan batas waktu kerja, dan ada properti lanjutan, seperti koneksi, perpustakaan, parameter pekerjaan, dan tag.

  • Berjalan - Setelah pekerjaan Anda berjalan, tab ini dapat diakses untuk melihat pekerjaan Anda sebelumnya berjalan.

  • Kualitas data — Kualitas data mengevaluasi dan memantau kualitas aset data Anda. Anda dapat mempelajari lebih lanjut tentang cara menggunakan kualitas data pada tab ini dan menambahkan transformasi kualitas data ke pekerjaan Anda.

  • Jadwal — Pekerjaan yang telah Anda jadwalkan muncul di tab ini. Jika tidak ada jadwal yang dilampirkan pada pekerjaan ini, maka tab ini tidak dapat diakses.

  • Kontrol versi — Anda dapat menggunakan Git dengan pekerjaan Anda dengan mengonfigurasi pekerjaan Anda ke repositori Git.

Panel ETL visual

Saat Anda bekerja di kanvas, beberapa panel tersedia untuk membantu Anda mengonfigurasi node, atau membantu Anda melihat pratinjau data dan melihat skema keluaran.

  • Properties - Panel Properties muncul ketika Anda memilih node di kanvas Anda.

  • Pratinjau data - Panel pratinjau data menyediakan pratinjau output data sehingga Anda dapat membuat keputusan sebelum menjalankan pekerjaan dan memeriksa output Anda.

  • Skema keluaran — Tab skema Output memungkinkan Anda untuk melihat dan mengedit skema node transformasi Anda.

Mengubah ukuran panel

Anda dapat mengubah ukuran panel Properties di sisi kanan layar dan panel bawah yang berisi tab pratinjau Data dan skema Output dengan mengklik tepi panel dan menyeretnya ke kiri dan kanan atau ke atas dan ke bawah.

  • Panel properti - Ubah ukuran panel properti dengan mengklik dan menyeret tepi kanvas di sisi kanan layar dan seret ke kiri untuk memperluas lebarnya. Secara default, panel diciutkan dan ketika sebuah node dipilih, panel properti terbuka ke ukuran defaultnya.

  • Pratinjau data dan panel skema Output - Ubah ukuran panel bawah dengan mengklik dan menyeret tepi bawah kanvas di bagian bawah layar dan seret ke atas untuk memperluas ketinggiannya. Secara default, panel diciutkan dan ketika sebuah node dipilih, panel bawah terbuka ke ukuran defaultnya.

Kanvas Job

Anda dapat menambahkan, menghapus, dan memindahkan/menyusun ulang node langsung pada kanvas Visual ETL. Anggap saja sebagai ruang kerja Anda untuk membuat pekerjaan ETL yang berfungsi penuh yang dimulai dengan sumber data dan dapat diakhiri dengan target data.

Saat Anda bekerja dengan node di kanvas, Anda memiliki bilah alat yang dapat membantu Anda memperbesar dan memperkecil, menghapus node, membuat atau mengedit koneksi antar node, mengubah orientasi alur pekerjaan, dan membatalkan atau mengulang tindakan.

Tangkapan layar menunjukkan panel sumber daya ditutup.

Toolbar mengambang ditambatkan ke ukuran kanan atas kanvas dan berisi beberapa gambar yang melakukan tindakan:

  • Ikon tata letak - Ikon pertama di bilah alat adalah ikon tata letak. Secara default, arah pekerjaan visual adalah dari atas ke bawah.Ini mengatur ulang arah pekerjaan visual Anda dengan mengatur node secara horizontal dari kiri ke kanan. Mengklik ikon tata letak lagi mengubah arah kembali ke atas ke bawah.

  • Ikon Recenter - Ikon recenter mengubah tampilan kanvas dengan memusatkannya. Anda dapat menggunakan ini dengan pekerjaan besar untuk kembali ke posisi tengah.

  • Zoom in icon — Zoom in icon memperbesar ukuran node pada kanvas.

  • Ikon zoom out - Ikon zoom out mengurangi ukuran node di kanvas.

  • Ikon sampah - Ikon sampah menghapus simpul dari pekerjaan visual. Anda harus memilih node terlebih dahulu.

  • Ikon batalkan - Ikon batalkan membalikkan tindakan terakhir yang diambil pada pekerjaan visual.

  • Ikon Redo - Ikon redo mengulangi tindakan terakhir yang diambil pada pekerjaan visual.

Menggunakan peta mini

Tangkapan layar menunjukkan tampilan dekat dari peta mini.

Panel sumber daya

Panel sumber daya berisi semua sumber data, mengubah tindakan, dan koneksi yang tersedia untuk Anda. Buka panel sumber daya di kanvas dengan mengklik ikon “+”. Ini akan membuka panel sumber daya.

Untuk menutup panel sumber daya, klik X di sudut kanan atas panel sumber daya. Ini akan menyembunyikan panel sampai Anda siap untuk membukanya lagi.

Tangkapan layar menunjukkan panel sumber daya saat terbuka.

Di bagian atas panel adalah kumpulan transformasi & data Populer. Node ini biasanya digunakan dalam AWS Glue. Pilih satu untuk menambahkannya ke kanvas. Anda juga dapat menyembunyikan Transformasi & data Populer dengan mengklik segitiga di sebelah judul Transformasi & data Populer.

Di bawah bagian Transformasi & data Populer, Anda dapat mencari transformasi dan node sumber data. Hasil muncul saat Anda mengetik. Semakin banyak huruf yang Anda tambahkan ke permintaan pencarian Anda, daftar hasil akan semakin kecil. Hasil pencarian diisi dari nama node dan/atau deskripsi. Pilih node untuk menambahkannya ke kanvas Anda.

Transformasi dan Data

Ada dua tab yang mengatur node menjadi Transforms dan Data.

Transformasi - Saat Anda memilih tab Transformasi, semua transformasi yang tersedia dapat dipilih. Pilih transformasi untuk menambahkannya ke kanvas. Anda juga dapat memilih Add Transform di bagian bawah daftar Transforms yang akan membuka halaman baru ke dokumentasi untuk membuat transformasi visual Kustom. Mengikuti langkah-langkah akan memungkinkan Anda untuk membuat transformasi Anda sendiri. Transformasi Anda kemudian akan muncul dalam daftar transformasi yang tersedia.

Data — Tab data berisi semua node untuk Sumber dan Target. Anda dapat menyembunyikan Sumber dan Target dengan mengklik segitiga di sebelah judul Sumber atau Target. Anda dapat menampilkan Sumber dan Target dengan mengklik segitiga lagi. Pilih sumber atau target node untuk menambahkannya ke kanvas. Anda juga dapat memilih Kelola Koneksi untuk menambahkan koneksi baru. Ini akan membuka halaman Konektor di konsol.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.