Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengkonfigurasi simpul target data
Target data adalah tempat di mana tugas menulis data yang sudah ditransformasi.
Gambaran umum pilihan target data
Target data Anda (juga disebut sink data) dapat berupa:
-
S3 — Tugas menulis data dalam sebuah file di lokasi Amazon S3 yang Anda pilih dan dalam format yang Anda tentukan.
Jika Anda mengkonfigurasi kolom partisi untuk target data, maka tugas akan menulis set data ke Amazon S3 ke direktori berdasarkan kunci partisi.
-
AWS Glue Data Catalog — Tugas menggunakan informasi yang dikaitkan dengan tabel di Katalog Data untuk menulis data output ke sebuah lokasi target.
Anda dapat membuat tabel secara manual atau dengan crawler. Anda juga dapat menggunakan templat AWS CloudFormation untuk membuat tabel dalam Katalog Data.
-
Konektor — Sebuah konektor adalah bagian dari kode yang memudahkan komunikasi antara penyimpanan data Anda dan AWS Glue. Tugas menggunakan konektor dan koneksi terkait untuk menulis data output ke sebuah lokasi target. Anda dapat berlangganan konektor yang ditawarkan di AWS Marketplace atau Anda dapat membuat konektor kustom Anda sendiri. Untuk informasi selengkapnya, lihat Menambahkan konektor ke AWS Glue Studio
Anda dapat memilih untuk memperbarui Katalog Data ketika tugas Anda menulis ke sebuah target data Amazon S3. Alih-alih mengharuskan sebuah crawler untuk memperbarui Katalog Data ketika skema atau partisi berubah, opsi ini memudahkan untuk menjaga tabel Anda selalu diperbarui. Opsi ini menyederhanakan proses membuat data Anda tersedia untuk analitik dengan secara opsional menambahkan tabel baru ke Katalog Data, memperbarui partisi tabel, dan memperbarui skema tabel Anda secara langsung dari tugas.
Mengedit simpul target data
Target data adalah tempat di mana tugas menulis data yang sudah ditransformasi.
Untuk menambah atau mengkonfigurasi sebuah simpul target data dalam diagram tugas Anda
-
(Opsional) Jika Anda perlu menambahkan sebuah simpul target, pilih Target di bilah alat yang ada di bagian atas editor visual, lalu pilih salah satu, S3 atau Katalog Data Glue.
-
Jika Anda memilih S3 untuk target, maka tugas akan menulis set data ke satu atau beberapa file di lokasi Amazon S3 yang Anda tentukan.
-
Jika Anda memilih AWS Glue Data Catalog untuk target, maka tugas akan menulis ke lokasi yang dijelaskan oleh tabel yang dipilih dari Katalog Data.
-
-
Pilih sebuah simpul target data dalam diagram tugas. Bila Anda memilih sebuah simpul, maka panel detail simpul akan muncul di sisi kanan halaman.
-
Pilih tab Properti simpul, dan kemudian masukkan informasi berikut:
-
Nama: Masukkan nama yang akan dikaitkan dengan simpul dalam diagram tugas.
-
Jenis Simpul: Sebuah nilai harus sudah dipilih, tetapi Anda dapat mengubahnya sesuai kebutuhan.
-
Induk simpul: Induk simpul adalah simpul dalam diagram tugas yang menyediakan output data yang ingin Anda tulis ke lokasi target. Untuk diagram tugas yang sudah diisi sebelumnya, simpul target harus sudah memiliki simpul induk yang dipilih. Jika tidak ada simpul induk yang ditampilkan, maka pilih simpul induk dari daftar.
Sebuah simpul target memiliki satu simpul induk tunggal.
-
-
Mengkonfigurasi informasi Properti target data. Untuk informasi selengkapnya, lihat bagian berikut:
(Opsional) Setelah mengkonfigurasi properti simpul target data, Anda dapat melihat skema output untuk data Anda dengan memilih tab Skema output di panel detail simpul. Pertama kali Anda memilih tab ini untuk setiap simpul dalam tugas Anda, Anda akan diminta untuk memberikan IAM role untuk mengakses data. Jika Anda belum menentukan IAM role pada tab Detail tugas, maka Anda akan diminta untuk memasukkan IAM role di sini.
Menggunakan Amazon S3 untuk target data
Untuk semua sumber data kecuali Amazon S3 dan konektor, tabel harus ada di AWS Glue Data Catalog untuk jenis sumber yang Anda pilih. AWS Glue Studiotidak membuat tabel Katalog Data.
Untuk mengkonfigurasi simpul target data yang menulis ke Amazon S3
-
Pergi ke editor visual untuk sebuah tugas baru atau yang sudah disimpan.
-
Pilih simpul sumber data dalam diagram tugas.
-
Pilih tab Properti sumber data, dan kemudian masukkan informasi berikut:
-
Format: Pilih format dari daftar. Jenis format yang tersedia untuk hasil data adalah:
-
JSON: Notasi JavaScript Objek.
-
CSV: Nilai yang dipisahkan koma.
-
Avro: Biner JSON Apache Avro.
-
Parquet: Penyimpanan kolumnar Apache Parquet.
-
Glue Parquet: Jenis penulis Parquet kustom yang dioptimalkan untuk
DynamicFrames
sebagai format data. Alih-alih mengharuskan skema yang sudah dikomputasi sebelumnya untuk data, ia melakukan komputasi dan modifikasi pada skema secara dinamis. -
ORC: Format Optimized Row Columnar (ORC) Apache.
Untuk mempelajari lebih lanjut tentang opsi format ini, lihat Format Pilihan untuk Input dan Output ETL di AWS Glue dalam Panduan Developer AWS Glue.
-
-
Jenis Kompresi: Anda dapat memilih untuk secara opsional mengkompres data menggunakan format
gzip
ataubzip2
. Default-nya adalah tidak dikompresi, atau Tidak ada. -
Lokasi Target S3: Bucket Amazon S3 dan lokasi untuk output data. Anda dapat memilih tombol Jelajahi S3 untuk melihat bucket Amazon S3 yang Anda miliki aksesnya dan memilih salah satu sebagai tujuan target.
-
Opsi pembaruan katalog data
-
Jangan memutakhirkan Katalog Data: (Default) Pilih opsi ini jika Anda tidak ingin tugas memperbarui Katalog Data, bahkan jika skema berubah atau partisi baru ditambahkan.
-
Membuat tabel di Katalog Data dan eksekusi berikutnya, memperbarui skema dan menambahkan partisi baru: Jika Anda memilih opsi ini, maka tugas akan menciptakan tabel di Katalog Data pada eksekusi pertama tugas. Pada eksekusi tugas berikutnya, tugas memutakhirkan tabel Katalog Data jika skema berubah atau partisi baru ditambahkan.
Anda juga harus memilih sebuah basis data dari Katalog Data dan memasukkan nama tabel.
-
Membuat tabel di Katalog Data dan eksekusi berikutnya, mempertahankan skema yang ada dan menambahkan partisi baru: Jika Anda memilih opsi ini, maka tugas akan menciptakan tabel di Katalog Data pada eksekusi pertama tugas. Pada eksekusi tugas berikutnya, tugas memutakhirkan tabel Katalog Data hanya jika partisi baru ditambahkan.
Anda juga harus memilih sebuah basis data dari Katalog Data dan memasukkan nama tabel.
-
Kunci partisi: Pilih kolom mana yang digunakan sebagai kunci partisi dalam output. Untuk menambahkan lebih banyak kunci partisi, pilih Tambahkan kunci partisi.
-
-
Menggunakan tabel Katalog Data untuk target data
Untuk semua sumber data kecuali Amazon S3 dan konektor, tabel harus ada di AWS Glue Data Catalog untuk jenis target yang Anda pilih. AWS Glue Studiotidak membuat tabel Katalog Data.
Untuk mengkonfigurasi properti data untuk target yang menggunakan tabel Katalog Data
-
Pergi ke editor visual untuk sebuah tugas baru atau yang sudah disimpan.
-
Pilih sebuah simpul target data dalam diagram tugas.
-
Pilih tab Properti target data, dan kemudian masukkan informasi berikut:
-
Basis data: Pilih basis data yang berisi tabel yang ingin Anda gunakan sebagai target dari daftar. Basis data ini harus sudah ada dalam Katalog Data.
-
Tabel: Pilih tabel yang mendefinisikan skema data output Anda dari daftar. Tabel ini sudah harus ada dalam Katalog Data.
Sebuah tabel dalam Katalog Data terdiri dari nama-nama kolom, definisi tipe data, informasi partisi, dan metadata lainnya tentang set data target. Tugas Anda menulis ke sebuah lokasi yang dijelaskan oleh tabel ini dalam Katalog Data.
Untuk informasi selengkapnya tentang membuat tabel dalam Katalog Data, lihat Mendefinisikan Tabel dalam Katalog Data dalam Panduan Developer AWS Glue.
-
Opsi pembaruan katalog data
-
Jangan ubah definisi tabel: (Default) Pilih opsi ini jika Anda tidak ingin tugas memperbarui Katalog Data, bahkan jika skema berubah, atau partisi baru ditambahkan.
-
Memperbarui skema dan menambahkan partisi baru: Jika Anda memilih opsi ini, maka tugas akan memperbarui tabel Katalog Data jika skema berubah atau partisi baru ditambahkan.
-
Pertahankan skema yang ada dan tambahkan partisi baru: Jika Anda memilih opsi ini, maka tugas akan memperbarui tabel Katalog Data hanya untuk menambahkan partisi baru.
-
Kunci partisi: Pilih kolom mana yang digunakan sebagai kunci partisi dalam output. Untuk menambahkan lebih banyak kunci partisi, pilih Tambahkan kunci partisi.
-
-
Menggunakan sebuah konektor untuk target data
Jika Anda memilih sebuah konektor untuk Jenis Simpul, ikuti petunjuk di Menulis tugas dengan konektor kustom untuk menyelesaikan konfigurasi properti target data.