Menggunakan kerangka Delta Lake di AWS Glue Studio - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan kerangka Delta Lake di AWS Glue Studio

Menggunakan kerangka Delta Lake dalam sumber data

Menggunakan kerangka Delta Lake di sumber data Amazon S3

  1. Dari menu Sumber, pilihAmazon S3.

  2. Jika Anda memilih tabel Katalog Data sebagai jenis sumber Amazon S3, pilih database dan tabel.

  3. AWS Glue Studiomenampilkan format sebagai Delta Lake dan URL Amazon S3.

  4. Pilih Opsi tambahan untuk memasukkan pasangan kunci-nilai. Misalnya, pasangan kunci-nilai dapat berupa: key: timestampAsOf dan value: 2023-02-24 14:16:18.

    Tangkapan layar menunjukkan bagian Opsi tambahan di tab Properti sumber data untuk simpul sumber data Amazon S3.
  5. Jika Anda memilih lokasi Amazon S3 sebagai jenis sumber Amazon S3, pilih URL Amazon S3 dengan mengklik Jelajahi Amazon S3.

  6. Dalam format Data, pilih Delta Lake.

    catatan

    Jika AWS Glue Studio tidak dapat menyimpulkan skema dari folder Amazon S3 atau file yang Anda pilih, pilih Opsi tambahan untuk memilih folder atau file baru.

    Dalam Opsi tambahan pilih dari opsi berikut di bawah Inferensi skema:

    • Biarkan AWS Glue Studio secara otomatis memilih file sampel - AWS Glue Studio akan memilih file sampel di lokasi Amazon S3 sehingga skema dapat disimpulkan. Di bidang File sampel otomatis, Anda dapat melihat file yang dipilih secara otomatis.

    • Pilih file sampel dari Amazon S3 - pilih file Amazon S3 yang akan digunakan dengan mengklik Jelajahi Amazon S3.

  7. Klik Skema Infer. Anda kemudian dapat melihat skema output dengan mengklik Skema keluaran tab.

Menggunakan kerangka Delta Lake di sumber data Katalog Data

  1. Dari menu Sumber, pilih Katalog AWS Glue Studio Data.

  2. Di tab Properti sumber data, pilih database dan tabel.

  3. AWS Glue Studiomenampilkan jenis format sebagai Delta Lake dan URL Amazon S3.

    catatan

    Jika sumber Delta Lake Anda belum terdaftar sebagai tabel Katalog AWS Glue Data, Anda memiliki dua opsi:

    1. Buat AWS Glue crawler untuk penyimpanan data Delta Lake. Untuk informasi selengkapnya, lihat Cara menentukan opsi konfigurasi untuk penyimpanan data Delta Lake.

    2. Gunakan sumber data Amazon S3 untuk memilih sumber data Delta Lake Anda. Lihat Menggunakan kerangka Delta Lake di sumber data Amazon S3 .

Menggunakan format Delta Lake dalam target data

Menggunakan format Delta Lake dalam target data Katalog Data

  1. Dari menu Target, pilih Katalog AWS Glue Studio Data.

  2. Di tab Properti sumber data, pilih database dan tabel.

  3. AWS Glue Studiomenampilkan jenis format sebagai Delta Lake dan URL Amazon S3.

Menggunakan format Delta Lake di sumber data Amazon S3

Masukkan nilai atau pilih dari opsi yang tersedia untuk mengkonfigurasi format Delta Lake.

  • Jenis Kompresi - pilih dari salah satu opsi jenis kompresi: Tidak Terkompresi atau Snappy.

  • Lokasi Target Amazon S3 - pilih lokasi target Amazon S3 dengan mengklik Jelajahi S3.

  • Opsi pembaruan Katalog Data — memperbarui Katalog Data tidak didukung untuk format ini di editor visual Glue Studio.

    • Jangan memutakhirkan Katalog Data: (Default) Pilih opsi ini jika Anda tidak ingin tugas memperbarui Katalog Data, bahkan jika skema berubah atau partisi baru ditambahkan.

    • Untuk memperbarui Katalog Data setelah eksekusi AWS Glue pekerjaan, jalankan atau jadwalkan AWS Glue crawler. Untuk informasi selengkapnya, lihat Cara menentukan opsi konfigurasi untuk penyimpanan data Delta Lake.

  • Tombol partisi - Pilih kolom mana yang akan digunakan sebagai kunci partisi dalam output. Untuk menambahkan lebih banyak kunci partisi, pilih Tambahkan kunci partisi.

  • Secara opsional, pilih Opsi tambahan untuk memasukkan pasangan kunci-nilai. Misalnya, pasangan kunci-nilai dapat berupa: key: timestampAsOf dan value: 2023-02-24 14:16:18.