Menggunakan sebuah sumber data streaming - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan sebuah sumber data streaming

Anda dapat membuat tugas extract, transform, and load (ETL) yang berjalan terus menerus dan mengkonsumsi data dari sumber streaming di Amazon Kinesis Data Streams, Apache Kafka, dan Amazon Managed Streaming for Apache Kafka (Amazon MSK).

Untuk mengkonfigurasi properti untuk sebuah sumber data streaming
  1. Pergi ke editor grafik visual untuk sebuah tugas baru atau yang sudah disimpan.

  2. Pilih simpul sumber data dalam grafik untuk Kafka atau Kinesis Data Streams.

  3. Pilih tab, lalu masukkan informasi berikut:

    Kinesis
    • Jenis sumber Kinesis: Pilih opsi Streaming detail untuk menggunakan akses langsung ke sumber streaming atau pilih tabel Katalog Data untuk menggunakan informasi yang disimpan di sana.

      Jika Anda memilih Detail Streaming, tentukan informasi tambahan berikut.

      • Lokasi aliran data: Pilih apakah aliran dikaitkan dengan pengguna saat ini, atau jika dikaitkan dengan pengguna yang berbeda.

      • Wilayah: Pilih Wilayah AWS tempat aliran ada. Informasi ini digunakan untuk membangun ARN untuk mengakses aliran data.

      • Streaming ARN: Masukkan Nama Sumber Daya Amazon (ARN) untuk aliran data Kinesis. Jika aliran terletak di dalam akun saat ini, Anda dapat memilih nama aliran dari daftar drop-down. Anda dapat menggunakan bidang pencarian untuk mencari aliran data dengan namanya atau ARN.

      • Format data: Pilih format yang digunakan oleh aliran data dari daftar.

        AWS Gluesecara otomatis mendeteksi skema dari data streaming.

      Jika Anda memilih tabel Katalog Data, tentukan informasi tambahan berikut.

      • Database: (Opsional) Pilih database dalam Katalog AWS Glue Data yang berisi tabel yang terkait dengan sumber data streaming Anda. Anda dapat menggunakan bidang pencarian untuk mencari basis data berdasarkan namanya.

      • Tabel: (Opsional) Pilih tabel yang telah dikaitkan dengan sumber data dari daftar. Tabel ini harus sudah ada di Katalog AWS Glue Data. Anda dapat menggunakan bidang pencarian untuk mencari tabel berdasarkan namanya.

      • Deteksi skema: Pilih opsi ini untuk AWS Glue mendeteksi skema dari data streaming, daripada menggunakan informasi skema dalam tabel Katalog Data. Opsi ini diaktifkan secara otomatis jika Anda memilih opsi Detail Stream.

    • Posisi awal: Secara default, pekerjaan ETL menggunakan opsi Paling Awal, yang berarti membaca data yang dimulai dengan catatan tertua yang tersedia di aliran. Sebagai gantinya, Anda dapat memilih Terbaru, yang menunjukkan pekerjaan ETL harus mulai membaca tepat setelah catatan terbaru dalam aliran.

    • Ukuran jendela: Secara default, tugas ETL Anda memproses dan menulis data dalam jendela 100-detik. Hal ini memungkinkan data diproses secara efisien dan memungkinkan agregasi untuk dilakukan pada data yang datang lebih lambat dari yang diharapkan. Anda dapat mengubah ukuran jendela ini untuk meningkatkan ketepatan waktu atau akurasi agregasi.

      Tugas streaming AWS Glue menggunakan pos pemeriksaan, bukan bookmark tugas, untuk melacak data yang telah dibaca.

    • Opsi koneksi: Perluas bagian ini untuk menambahkan pasangan nilai kunci untuk menentukan opsi koneksi tambahan. Untuk informasi tentang opsi apa yang dapat Anda tentukan di sini, lihat “ConnectionType”: “kinesis” di Panduan Pengembang. AWS Glue

    Kafka
    • Sumber Apache Kafka: Pilih opsi Streaming detail untuk menggunakan akses langsung ke sumber streaming atau pilih tabel Katalog Data untuk menggunakan informasi yang disimpan di sana sebagai gantinya.

      Jika Anda memilih tabel Katalog Data, tentukan informasi tambahan berikut.

      • Database: (Opsional) Pilih database dalam Katalog AWS Glue Data yang berisi tabel yang terkait dengan sumber data streaming Anda. Anda dapat menggunakan bidang pencarian untuk mencari basis data berdasarkan namanya.

      • Tabel: (Opsional) Pilih tabel yang telah dikaitkan dengan sumber data dari daftar. Tabel ini harus sudah ada di Katalog AWS Glue Data. Anda dapat menggunakan bidang pencarian untuk mencari tabel berdasarkan namanya.

      • Deteksi skema: Pilih opsi ini untuk AWS Glue mendeteksi skema dari data streaming, daripada menyimpan informasi skema dalam tabel Katalog Data. Opsi ini diaktifkan secara otomatis jika Anda memilih opsi Detail Stream.

      Jika Anda memilih Detail Streaming, tentukan informasi tambahan berikut.

      • Nama koneksi: Pilih AWS Glue koneksi yang berisi informasi akses dan otentikasi untuk aliran data Kafka. Anda harus menggunakan koneksi dengan sumber data streaming Kafka. Jika koneksi tidak ada, Anda dapat menggunakan AWS Glue konsol untuk membuat koneksi untuk aliran data Kafka Anda.

      • Nama topik: Masukkan nama topik yang akan dibaca.

      • Format data: Pilih format yang akan digunakan saat membaca data dari aliran acara Kafka.

    • Posisi awal: Secara default, pekerjaan ETL menggunakan opsi Paling Awal, yang berarti membaca data yang dimulai dengan catatan tertua yang tersedia di aliran. Sebagai gantinya, Anda dapat memilih Terbaru, yang menunjukkan pekerjaan ETL harus mulai membaca tepat setelah catatan terbaru dalam aliran.

    • Ukuran jendela: Secara default, tugas ETL Anda memproses dan menulis data dalam jendela 100-detik. Hal ini memungkinkan data diproses secara efisien dan memungkinkan agregasi untuk dilakukan pada data yang datang lebih lambat dari yang diharapkan. Anda dapat mengubah ukuran jendela ini untuk meningkatkan ketepatan waktu atau akurasi agregasi.

      Tugas streaming AWS Glue menggunakan pos pemeriksaan, bukan bookmark tugas, untuk melacak data yang telah dibaca.

    • Opsi koneksi: Perluas bagian ini untuk menambahkan pasangan nilai kunci untuk menentukan opsi koneksi tambahan. Untuk informasi tentang opsi apa yang dapat Anda tentukan di sini, lihat “ConnectionType”: “kafka” di Panduan Pengembang. AWS Glue

catatan

Pratinjau data saat ini tidak didukung untuk sumber data streaming.