Menggunakan sebuah sumber data streaming

Anda dapat membuat tugas extract, transform, and load (ETL) yang berjalan terus menerus dan mengkonsumsi data dari sumber streaming di Amazon Kinesis Data Streams, Apache Kafka, dan Amazon Managed Streaming for Apache Kafka (Amazon MSK).

Untuk mengkonfigurasi properti untuk sebuah sumber data streaming

Pergi ke editor grafik visual untuk sebuah tugas baru atau yang sudah disimpan.
Pilih simpul sumber data dalam grafik untuk Kafka atau Kinesis Data Streams.
Pilih tab Properti sumber data, dan kemudian masukkan informasi berikut:
Kinesis
Jenis sumber Kinesis: Pilih opsi Streaming detail untuk menggunakan akses langsung ke sumber streaming atau pilih tabel Katalog Data untuk menggunakan informasi yang disimpan di sana.

Jika Anda memilih Detail Streaming, tentukan informasi tambahan berikut.

Lokasi aliran data: Pilih apakah aliran dikaitkan dengan pengguna saat ini, atau jika dikaitkan dengan pengguna yang berbeda.

Wilayah: Pilih Wilayah AWS tempat aliran ada. Informasi ini digunakan untuk membangun ARN untuk mengakses aliran data.

Streaming ARN: Masukkan Nama Sumber Daya Amazon (ARN) untuk aliran data Kinesis. Jika aliran terletak di dalam akun saat ini, Anda dapat memilih nama aliran dari daftar drop-down. Anda dapat menggunakan bidang pencarian untuk mencari aliran data dengan namanya atau ARN.

Format data: Pilih format yang digunakan oleh aliran data dari daftar.

AWS Glue secara otomatis mendeteksi skema dari data streaming.

Jika Anda memilih tabel Katalog Data, tentukan informasi tambahan berikut.

Database: (Opsional) Pilih database di AWS Glue Katalog Data yang berisi tabel yang terkait dengan sumber data streaming Anda. Anda dapat menggunakan bidang pencarian untuk mencari basis data berdasarkan namanya.

Tabel: (Opsional) Pilih tabel yang telah dikaitkan dengan sumber data dari daftar. Tabel ini harus sudah ada di AWS Glue Katalog Data. Anda dapat menggunakan bidang pencarian untuk mencari tabel berdasarkan namanya.

Deteksi skema: Pilih opsi ini untuk dimiliki AWS Glue mendeteksi skema dari data streaming, daripada menggunakan informasi skema dalam tabel Katalog Data. Opsi ini diaktifkan secara otomatis jika Anda memilih opsi Detail Stream.

Posisi awal: Secara default, pekerjaan ETL menggunakan opsi Paling Awal, yang berarti membaca data yang dimulai dengan catatan tertua yang tersedia di aliran. Sebagai gantinya, Anda dapat memilih Terbaru, yang menunjukkan pekerjaan ETL harus mulai membaca tepat setelah catatan terbaru dalam aliran.

Ukuran jendela: Secara default, tugas ETL Anda memproses dan menulis data dalam jendela 100-detik. Hal ini memungkinkan data diproses secara efisien dan memungkinkan agregasi untuk dilakukan pada data yang datang lebih lambat dari yang diharapkan. Anda dapat mengubah ukuran jendela ini untuk meningkatkan ketepatan waktu atau akurasi agregasi.

AWS Glue pekerjaan streaming menggunakan pos pemeriksaan daripada bookmark pekerjaan untuk melacak data yang telah dibaca.

Opsi koneksi: Perluas bagian ini untuk menambahkan pasangan nilai kunci untuk menentukan opsi koneksi tambahan. Untuk informasi tentang opsi apa yang dapat Anda tentukan di sini, lihat “ConnectionType”: “kinesis” di Panduan Pengembang.AWS Glue
Kafka
Sumber Apache Kafka: Pilih opsi Streaming detail untuk menggunakan akses langsung ke sumber streaming atau pilih tabel Katalog Data untuk menggunakan informasi yang disimpan di sana sebagai gantinya.

Jika Anda memilih tabel Katalog Data, tentukan informasi tambahan berikut.

Database: (Opsional) Pilih database di AWS Glue Katalog Data yang berisi tabel yang terkait dengan sumber data streaming Anda. Anda dapat menggunakan bidang pencarian untuk mencari basis data berdasarkan namanya.

Tabel: (Opsional) Pilih tabel yang telah dikaitkan dengan sumber data dari daftar. Tabel ini harus sudah ada di AWS Glue Katalog Data. Anda dapat menggunakan bidang pencarian untuk mencari tabel berdasarkan namanya.

Deteksi skema: Pilih opsi ini untuk dimiliki AWS Glue mendeteksi skema dari data streaming, daripada menyimpan informasi skema dalam tabel Katalog Data. Opsi ini diaktifkan secara otomatis jika Anda memilih opsi Detail Stream.

Jika Anda memilih Detail Streaming, tentukan informasi tambahan berikut.

Nama koneksi: Pilih AWS Glue koneksi yang berisi informasi akses dan otentikasi untuk aliran data Kafka. Anda harus menggunakan koneksi dengan sumber data streaming Kafka. Jika koneksi tidak ada, Anda dapat menggunakan AWS Glue konsol untuk membuat koneksi untuk aliran data Kafka Anda.

Nama topik: Masukkan nama topik yang akan dibaca.

Format data: Pilih format yang akan digunakan saat membaca data dari aliran acara Kafka.

Posisi awal: Secara default, pekerjaan ETL menggunakan opsi Paling Awal, yang berarti membaca data yang dimulai dengan catatan tertua yang tersedia di aliran. Sebagai gantinya, Anda dapat memilih Terbaru, yang menunjukkan pekerjaan ETL harus mulai membaca tepat setelah catatan terbaru dalam aliran.

Ukuran jendela: Secara default, tugas ETL Anda memproses dan menulis data dalam jendela 100-detik. Hal ini memungkinkan data diproses secara efisien dan memungkinkan agregasi untuk dilakukan pada data yang datang lebih lambat dari yang diharapkan. Anda dapat mengubah ukuran jendela ini untuk meningkatkan ketepatan waktu atau akurasi agregasi.

AWS Glue pekerjaan streaming menggunakan pos pemeriksaan daripada bookmark pekerjaan untuk melacak data yang telah dibaca.

Opsi koneksi: Perluas bagian ini untuk menambahkan pasangan nilai kunci untuk menentukan opsi koneksi tambahan. Untuk informasi tentang opsi apa yang dapat Anda tentukan di sini, lihat “ConnectionType”: “kafka” di Panduan Pengembang.AWS Glue

catatan

Pratinjau data saat ini tidak didukung untuk sumber data streaming.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menggunakan file di Amazon S3 untuk sumber data

Referensi