Menggunakan Spigot untuk mengambil sampel dari set data Anda - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan Spigot untuk mengambil sampel dari set data Anda

Untuk menguji transformasi yang dilakukan oleh tugas Anda, Anda mungkin ingin mendapatkan sampel data untuk memeriksa apakah transformasi bekerja sebagaimana mestinya. Transformasi Spigot menulis subset catatan dari set data ke file JSON dalam sebuah bucket Amazon S3. Metode pengambilan sampel data dapat berupa jumlah tertentu dari catatan dari awal file atau faktor probabilitas yang digunakan untuk memilih catatan.

Untuk menambahkan simpul transformasi Spigot ke diagram tugas Anda
  1. (Opsional) Buka panel Resource dan kemudian pilih Spigot untuk menambahkan transformasi baru ke diagram pekerjaan Anda, jika diperlukan.

  2. Pada tab Properti simpul, masukkan nama untuk simpul dalam diagram tugas. Jika sebuah induk simpul belum dipilih, maka pilihlah sebuah simpul dari daftar Induk simpul untuk digunakan sebagai sumber masukan untuk transformasi tersebut.

  3. Pilih tab Transformasi di panel detail simpul.

  4. Masukkan sebuah path Amazon S3 atau pilih Jelajahi S3 untuk memilih lokasi di Amazon S3. Ini adalah lokasi di mana tugas menulis file JSON yang berisi sampel data.

  5. Masukkan informasi untuk metode pengambilan sampel. Anda dapat menentukan nilai untuk Jumlah catatan untuk menulis mulai dari awal set data dan Ambang probabilitas (dimasukkan sebagai nilai desimal dengan nilai maksimum 1) dari pemilihan catatan yang diberikan.

    Misalnya, untuk menulis 50 catatan pertama dari set data, Anda akan mengatur Jumlah catatan ke 50 dan Ambang probabilitas ke 1 (100%).