Tutorial: Bangun beban kerja streaming pertama Anda menggunakan Studio AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tutorial: Bangun beban kerja streaming pertama Anda menggunakan Studio AWS Glue

Dalam tutorial ini, Anda akan belajar cara membuat pekerjaan streaming menggunakan AWS Glue Studio. AWS Glue Studio adalah antarmuka visual untuk menciptakan AWS Glue pekerjaan.

Anda dapat membuat pekerjaan ekstrak, transformasi, dan pemuatan streaming (ETL) yang berjalan terus menerus dan menggunakan data dari sumber streaming di Amazon Kinesis Data Streams, Apache Kafka, dan Amazon Managed Streaming untuk Apache Kafka (Amazon MSK).

Prasyarat

Untuk mengikuti tutorial ini, Anda memerlukan pengguna dengan izin AWS konsol untuk digunakanAWS Glue, Amazon Kinesis, Amazon S3, Amazon Athena,, AWS CloudFormation LambdaAWS, dan Amazon Cognito.

Konsumsi data streaming dari Amazon Kinesis

Menghasilkan data tiruan dengan Kinesis Data Generator

Anda dapat secara sintetis menghasilkan data sampel dalam format JSON menggunakan Kinesis Data Generator (KDG). Anda dapat menemukan instruksi dan detail lengkap dalam dokumentasi alat.

  1. Untuk memulai, klik untuk menjalankan AWS CloudFormation template di AWS lingkungan Anda.

    catatan

    Anda mungkin mengalami kegagalan CloudFormation template karena beberapa sumber daya, seperti pengguna Amazon Cognito untuk Kinesis Data Generator sudah ada di akun Anda. AWS Ini bisa jadi karena Anda sudah mengaturnya dari tutorial atau blog lain. Untuk mengatasi hal ini, Anda dapat mencoba template di AWS akun baru untuk awal yang baru, atau menjelajahi AWS Wilayah yang berbeda. Opsi ini memungkinkan Anda menjalankan tutorial tanpa bertentangan dengan sumber daya yang ada.

    Template menyediakan aliran data Kinesis dan akun Kinesis Data Generator untuk Anda. Ini juga membuat bucket Amazon S3 untuk menyimpan data dan Peran Layanan Glue dengan izin yang diperlukan untuk tutorial ini.

  2. Masukkan Nama Pengguna dan Kata Sandi yang akan digunakan KDG untuk mengautentikasi. Perhatikan nama pengguna dan kata sandi untuk penggunaan lebih lanjut.

  3. Pilih Berikutnya sampai ke langkah terakhir. Mengakui penciptaan sumber daya IAM. Periksa kesalahan apa pun di bagian atas layar, seperti kata sandi yang tidak memenuhi persyaratan minimum, dan gunakan templat.

  4. Arahkan ke tab Output dari tumpukan. Setelah template digunakan, itu akan menampilkan properti KinesisDataGeneratorUrlyang dihasilkan. Klik URL tersebut.

  5. Masukkan Nama Pengguna dan Kata Sandi yang Anda catat.

  6. Pilih Wilayah yang Anda gunakan dan pilih Kinesis Stream GlueStreamTest-{AWS::AccountId}

  7. Masukkan template berikut:

    { "ventilatorid": {{random.number(100)}}, "eventtime": "{{date.now("YYYY-MM-DD HH:mm:ss")}}", "serialnumber": "{{random.uuid}}", "pressurecontrol": {{random.number( { "min":5, "max":30 } )}}, "o2stats": {{random.number( { "min":92, "max":98 } )}}, "minutevolume": {{random.number( { "min":5, "max":8 } )}}, "manufacturer": "{{random.arrayElement( ["3M", "GE","Vyaire", "Getinge"] )}}" }

    Anda sekarang dapat melihat data tiruan dengan template Uji dan menelan data tiruan ke Kinesis dengan data Kirim.

  8. Klik Kirim data dan hasilkan 5-10K catatan ke Kinesis.

Membuat pekerjaan AWS Glue streaming dengan AWS Glue Studio

  1. Arahkan ke AWS Glue konsol di Wilayah yang sama.

  2. Pilih pekerjaan ETL di bawah bilah navigasi sisi kiri di bawah Integrasi Data dan ETL.

  3. Buat AWS Glue Job via Visual dengan kanvas kosong.

    Tangkapan layar menunjukkan dialog buat pekerjaan.
  4. Arahkan ke tab Job Details.

  5. Untuk nama AWS Glue pekerjaan, masukkanDemoStreamingJob.

  6. Untuk Peran IAM, pilih peran yang disediakan oleh templat, CloudFormation . glue-tutorial-role-${AWS::AccountId}

  7. Untuk versi Glue, pilih Glue 3.0. Biarkan semua opsi lain sebagai default.

    Tangkapan layar menunjukkan tab detail pekerjaan.
  8. Arahkan ke tab Visual.

  9. Klik pada ikon plus. Masukkan Kinesis di bilah pencarian. Pilih sumber data Amazon Kinesis.

    Tangkapan layar menunjukkan dialog Tambahkan node.
  10. Pilih Streaming detail untuk Sumber Amazon Kinesis di bawah tab Properti sumber data - Aliran Kinesis.

  11. Pilih Stream terletak di akun saya untuk Lokasi aliran data.

  12. Pilih Wilayah yang Anda gunakan.

  13. Pilih GlueStreamTest-{AWS::AccountId} aliran.

  14. Simpan semua pengaturan lainnya sebagai default.

    Tangkapan layar menunjukkan tab Properti sumber data.
  15. Arahkan ke tab Pratinjau data.

  16. Klik Mulai sesi pratinjau data, yang menampilkan pratinjau data tiruan yang dihasilkan oleh KDG. Pilih Peran Layanan Glue yang sebelumnya Anda buat untuk pekerjaan AWS Glue Streaming.

    Dibutuhkan 30-60 detik agar data pratinjau muncul. Jika ditampilkan Tidak ada data untuk ditampilkan, klik ikon roda gigi dan ubah Jumlah baris yang akan dijadikan sampel100.

    Anda dapat melihat data sampel seperti di bawah ini:

    Tangkapan layar menunjukkan tab Pratinjau data.

    Anda juga dapat melihat skema yang disimpulkan di tab skema Output.

    Tangkapan layar menunjukkan skema Output tab.

Melakukan transformasi dan menyimpan hasil yang ditransformasikan di Amazon S3

  1. Dengan node sumber yang dipilih, klik ikon plus di kiri atas untuk menambahkan langkah Transforms.

  2. Pilih langkah Ubah Skema.

    Tangkapan layar menunjukkan dialog Tambahkan node.
  3. Anda dapat mengganti nama bidang dan mengonversi tipe data bidang dalam langkah ini. Ubah nama o2stats kolom menjadi OxygenSaturation dan ubah semua tipe long data menjadiint.

    Tangkapan layar menunjukkan tab Transform.
  4. Klik ikon plus untuk menambahkan target Amazon S3. Masukkan S3 di kotak pencarian dan pilih Amazon S3 - Langkah transformasi target.

    Tangkapan layar menunjukkan tab Tambah node.
  5. Pilih Parket sebagai format file target.

  6. Pilih Snappy sebagai tipe kompresi.

  7. Masukkan Lokasi Target S3 yang dibuat oleh CloudFormation template,streaming-tutorial-s3-target-{AWS::AccountId}.

  8. Pilih untuk Membuat tabel di Katalog Data dan pada proses berikutnya, perbarui skema dan tambahkan partisi baru.

  9. Masukkan Database target dan nama Tabel untuk menyimpan skema tabel target Amazon S3.

    Tangkapan layar menunjukkan halaman konfigurasi untuk target Amazon S3.
  10. Klik pada tab Script untuk melihat kode yang dihasilkan.

  11. Klik Simpan di kanan atas untuk menyimpan kode ETL dan kemudian klik Jalankan untuk memulai pekerjaan streaming. AWS Glue

    Anda dapat menemukan status Run di tab Runs. Biarkan pekerjaan berjalan selama 3-5 menit dan kemudian hentikan pekerjaan.

    Tangkapan layar menunjukkan tab Runs.
  12. Verifikasi tabel baru yang dibuat di Amazon Athena.

    Tangkapan layar menunjukkan tabel di Amazon Athena.