Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
AWS Glue konsep
AWS Glue adalah layanan yang dikelola sepenuhnya ETL (ekstrak, transformasi, muat) yang memungkinkan Anda memindahkan data dengan mudah antara sumber dan target data yang berbeda. Komponen kuncinya adalah:
-
Katalog Data: Penyimpanan metadata yang berisi definisi tabel, definisi pekerjaan, dan informasi kontrol lainnya untuk alur kerja AndaETL.
-
Crawler: Program yang terhubung ke sumber data, menyimpulkan skema data, dan membuat definisi tabel metadata di Katalog Data.
-
ETLJobs: Logika bisnis untuk mengekstrak data dari sumber, mengubahnya menggunakan skrip Apache Spark, dan memuatnya ke target.
-
Pemicu: Mekanisme untuk memulai pekerjaan berjalan berdasarkan jadwal atau acara.
Alur kerja tipikal melibatkan:
-
Tentukan sumber dan target data dalam Katalog Data.
-
Gunakan Crawler untuk mengisi Katalog Data dengan metadata tabel dari sumber data.
-
Tentukan ETL pekerjaan dengan skrip transformasi untuk memindahkan dan memproses data.
-
Jalankan pekerjaan sesuai permintaan atau berdasarkan pemicu.
-
Pantau kinerja pekerjaan menggunakan dasbor.
Diagram berikut menunjukkan arsitektur suatu AWS Glue lingkungan.
Anda menentukan pekerjaan AWS Glue untuk menyelesaikan pekerjaan yang diperlukan untuk mengekstrak, mengubah, dan memuat (ETL) data dari sumber data ke target data. Anda biasanya akan melakukan tindakan-tindakan berikut:
-
Untuk sumber penyimpanan data, Anda menentukan crawler agar mengisi AWS Glue Data Catalog Anda dengan definisi tabel metadata. Anda mengarahkan crawler Anda di sebuah penyimpanan data, dan crawler menciptakan definisi tabel dalam Katalog Data. Untuk sumber streaming, Anda secara manual menentukan tabel Katalog Data dan menentukan properti aliran data.
Selain definisi tabel, AWS Glue Data Catalog berisi metadata lain yang diperlukan untuk mendefinisikan ETL pekerjaan. Anda menggunakan metadata ini ketika Anda menentukan tugas untuk mengubah data Anda.
AWS Glue dapat menghasilkan skrip untuk mengubah data Anda. Atau, Anda dapat memberikan skrip di AWS Glue konsol atauAPI.
-
Anda dapat menjalankan tugas Anda sesuai permintaan, atau Anda dapat mengaturnya untuk memulai ketika pemicu yang ditentukan terjadi. Pemicu bisa menjadi jadwal berbasis waktu atau peristiwa.
Saat tugas Anda berjalan, skrip mengekstrak data dari sumber data Anda, mengubah data, dan memasukkannya ke target data Anda. Skrip berjalan di lingkungan Apache Spark di AWS Glue.
penting
Tabel dan database di AWS Glue adalah objek dalam. AWS Glue Data Catalog Mereka berisi metadata; mereka tidak berisi data dari penyimpanan data.
Data berbasis teks, sepertiCSVs, harus dikodekan agar dapat memprosesnya dengan |
AWS Glue terminologi
AWS Glue bergantung pada interaksi beberapa komponen untuk membuat dan mengelola alur kerja ekstrak, transformasi, dan beban (ETL) Anda.
AWS Glue Data Catalog
Penyimpanan metadata persisten di. AWS Glue Ini berisi definisi tabel, definisi pekerjaan, dan informasi kontrol lainnya untuk mengelola AWS Glue lingkungan Anda. Setiap AWS akun memiliki satu AWS Glue Data Catalog per wilayah.
Pengklasifikasi
Menentukan skema data Anda. AWS Glue menyediakan pengklasifikasi untuk jenis file umum, sepertiCSV,,JSON, AVROXML, dan lainnya. Ini juga menyediakan pengklasifikasi untuk sistem manajemen database relasional umum menggunakan koneksiJDBC. Anda dapat menulis pengklasifikasi Anda sendiri dengan menggunakan pola grok atau dengan menentukan tag baris dalam dokumen. XML
Koneksi
Sebuah objek Katalog Data yang berisi properti yang diperlukan untuk connect ke penyimpanan data tertentu.
Crawler
Program yang terhubung ke penyimpanan data (sumber atau target), berlangsung melalui daftar prioritas pengklasifikasi untuk menentukan skema untuk data Anda, dan kemudian membuat tabel metadata di AWS Glue Data Catalog.
Basis Data
Satu set definisi tabel Katalog Data terkait diatur ke dalam grup logis.
Penyimpanan data, sumber data, target data
Sebuah penyimpanan data adalah repositori untuk menyimpan data Anda secara terus-menerus. Contohnya meliputi bucket Amazon S3 dan basis data relasional. Sebuah sumber data adalah penyimpanan data yang digunakan sebagai masukan untuk proses atau transformasi. Sebuah target data adalah penyimpanan data yang padanya dituliskan proses atau transformasi.
Titik akhir pengembangan
Lingkungan yang dapat Anda gunakan untuk mengembangkan dan menguji AWS Glue ETL skrip Anda.
Bingkai Dinamis
Sebuah tabel terdistribusi yang mendukung data bersarang seperti struktur dan rangkaian string. Setiap catatan adalah swa-deskripsi, yang dirancang untuk fleksibilitas skema dengan data semi-terstruktur. Setiap catatan berisi data dan skema yang menggambarkan data tersebut. Anda dapat menggunakan frame dinamis dan Apache Spark DataFrames di ETL skrip Anda, dan mengonversinya. Bingkai dinamis menyediakan serangkaian transformasi canggih untuk pembersihan data danETL.
Pekerjaan
Logika bisnis yang diperlukan untuk melakukan ETL pekerjaan. Ia terdiri dari skrip transformasi, sumber data, dan target data. Eksekusi tugas dimulai oleh pemicu yang dapat dijadwalkan atau dipicu oleh peristiwa.
Dasbor performa tugas
AWS Glue menyediakan dasbor run yang komprehensif untuk ETL pekerjaan Anda. Dasbor menampilkan informasi tentang eksekusi tugas dalam kerangka waktu tertentu.
Antarmuka notebook
Pengalaman notebook yang disempurnakan dengan penyiapan sekali klik untuk memudahkan penulisan pekerjaan dan eksplorasi data. Notebook dan koneksi dikonfigurasi secara otomatis untuk Anda. Anda dapat menggunakan antarmuka notebook berdasarkan Jupyter Notebook untuk mengembangkan, men-debug, dan menyebarkan skrip dan alur kerja secara interaktif menggunakan infrastruktur Apache Spark tanpa server. AWS Glue ETL Anda juga dapat melakukan kueri ad-hoc, analisis data, dan visualisasi (misalnya, tabel dan grafik) di lingkungan notebook.
Skrip
Kode yang mengekstrak data dari sumber, mengubahnya, dan memuatnya menjadi target. AWS Glue menghasilkan PySpark atau skrip Scala.
Tabel
Definisi metadata yang mewakili data Anda. Baik data Anda ada di file Amazon Simple Storage Service (Amazon S3), tabel Amazon Relational Database Service RDS (Amazon), atau kumpulan data lainnya, tabel menentukan skema data Anda. Sebuah tabel di AWS Glue Data Catalog terdiri dari nama-nama kolom, definisi tipe data, informasi partisi, dan metadata lainnya tentang dataset dasar. Skema data Anda direpresentasikan dalam definisi AWS Glue tabel Anda. Data aktual tetap berada di penyimpanan data aslinya, apakah itu dalam file atau tabel database relasional. AWS Glue katalog file Anda dan tabel database relasional di. AWS Glue Data Catalog Mereka digunakan sebagai sumber dan target saat Anda membuat ETL pekerjaan.
Transformasi
Logika kode yang digunakan untuk memanipulasi data Anda ke dalam sebuah format yang berbeda.
Pemicu
Memulai ETL pekerjaan. Pemicu dapat didefinisikan berdasarkan waktu yang dijadwalkan atau peristiwa.
Editor tugas visual
Editor pekerjaan visual adalah antarmuka grafis yang memudahkan untuk membuat, menjalankan, dan memantau ekstrak, mengubah, dan memuat (ETL) pekerjaan di AWS Glue. Anda dapat menyusun alur kerja transformasi data secara visual, menjalankannya dengan mulus di AWS Glue ETL mesin tanpa server berbasis Apache Spark, dan memeriksa skema dan hasil data di setiap langkah pekerjaan.
Pekerja
Dengan AWS Glue, Anda hanya membayar waktu yang dibutuhkan ETL pekerjaan Anda untuk berjalan. Tidak ada sumber daya untuk dikelola, tidak ada biaya di muka, dan Anda tidak dikenakan biaya untuk waktu startup atau shutdown. Anda dikenakan tarif per jam berdasarkan jumlah Unit Pemrosesan Data (atauDPUs) yang digunakan untuk menjalankan ETL pekerjaan Anda. Satu Data Processing Unit (DPU) juga disebut sebagai pekerja. AWS Glue dilengkapi dengan tiga jenis pekerja untuk membantu Anda memilih konfigurasi yang memenuhi latensi pekerjaan dan persyaratan biaya Anda. Pekerja datang dalam konfigurasi Standar, G.1X, G.2X, dan G.025X.