Membuat pengklasifikasi menggunakan konsol AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat pengklasifikasi menggunakan konsol AWS Glue

Sebuah pengklasifikasi menentukan skema dari data Anda. Anda dapat menulis sebuah pengklasifikasi kustom dan mengarahkannya dari AWS Glue.

Membuat pengklasifikasi

Untuk menambahkan sebuah pengklasifikasi di konsol AWS Glue, pilih Tambahkan pengklasifikasi. Ketika Anda menentukan sebuah pengklasifikasi, Anda menyediakan nilai-nilai untuk hal berikut:

  • Nama pengklasifikasi — Berikan nama yang unik untuk pengklasifikasi Anda.

  • Jenis pengklasifikasi — Jenis klasifikasi tabel yang disimpulkan oleh pengklasifikasi ini.

  • Terakhir diperbarui — Terakhir kali pengklasifikasi ini diperbarui.

Nama pengklasifikasi

Berikan nama yang unik untuk pengklasifikasi Anda.

Jenis pengklasifikasi

Pilih jenis pengklasifikasi yang akan dibuat.

Tergantung pada jenis pengklasifikasi yang Anda pilih, konfigurasikan properti berikut untuk pengklasifikasi Anda:

Grok
  • Klasifikasi

    Deskripsikan format atau jenis data yang diklasifikasikan atau berikan label kustom.

  • Pola grok

    Hal ini digunakan untuk mengurai data Anda ke dalam skema terstruktur. Pola grok terdiri dari pola bernama yang mendeskripsikan format penyimpanan data Anda. Anda menulis pola grok ini dengan menggunakan pola bawaan bernama yang disediakan oleh AWS Glue dan pola kustom yang Anda tulis dan sertakan dalam bidang Pola kustom. Meskipun hasil debugger grok mungkin tidak cocok dengan hasil dari AWS Glue secara persis, kami sarankan bahwa Anda mencoba pola Anda dengan menggunakan beberapa data sampel dengan debugger grok. Anda dapat menemukan debugger grok di web. Pola bawaan bernama disediakan oleh AWS Glue pada umumnya kompatibel dengan pola grok yang tersedia di web.

    Membangun pola grok Anda dengan menambahkan pola bernama dan memeriksa hasil Anda dalam debugger secara berulang-ulang. Kegiatan ini akan memberikan Anda keyakinan bahwa ketika crawler AWS Glue menjalankan pola grok Anda, data Anda dapat di-parsing.

  • Pola kustom

    Untuk pengklasifikasi grok, ini adalah blok bangunan opsional untuk Pola Grok yang Anda tulis. Ketika pola bawaan tidak dapat mengurai data Anda, maka Anda mungkin perlu menulis sebuah pola kustom. Pola kustom ini didefinisikan dalam bidang ini dan direferensikan dalam di bidang Pola Grok. Masing-masing pola kustom didefinisikan pada baris terpisah. Sama seperti pola bawaan, pola itu terdiri dari definisi pola bernama yang menggunakan sintaksis ekspresi reguler (regex).

    Sebagai contoh, berikut ini memiliki nama MESSAGEPREFIX yang diikuti dengan definisi ekspresi reguler untuk diterapkan ke data Anda untuk menentukan apakah itu mengikuti pola atau tidak.

    MESSAGEPREFIX .*-.*-.*-.*-.*
XML
  • Tag baris

    Untuk XML pengklasifikasi, ini adalah nama XML tag yang mendefinisikan baris tabel dalam dokumen. XML Ketik nama tanpa kurung sudut < >. Nama harus mematuhi XML aturan untuk tag.

    Untuk informasi selengkapnya, lihat Menulis pengklasifikasi XML khusus.

JSON
  • JSONjalan

    Untuk JSON pengklasifikasi, ini adalah JSON jalur ke objek, array, atau nilai yang mendefinisikan baris tabel yang sedang dibuat. Ketik nama dalam JSON sintaks titik atau braket menggunakan operator yang AWS Glue didukung.

    Untuk informasi lebih lanjut, lihat daftar operator di Menulis pengklasifikasi JSON khusus.

CSV
  • Pembatas kolom

    Sebuah simbol atau karakter tunggal untuk menunjukkan apa yang memisahkan masing-masing entri kolom pada baris. Pilih pembatas dari daftar tersebut, atau pilih Other untuk memasukkan pembatas kustom.

  • Simbol kutipan

    Sebuah karakter atau simbol tunggal untuk menunjukkan apa yang menggabungkan konten ke dalam satu nilai kolom tunggal. Harus berbeda dari pembatas kolom. Pilih simbol kutipan dari daftar tersebut, atau pilih Other untuk memasukkan karakter kutipan kustom.

  • Judul kolom

    Menunjukkan perilaku bagaimana judul kolom harus dideteksi dalam CSV file. Anda dapat memilih Has headings, No headings, atau Detect headings. Jika CSV file kustom Anda memiliki judul kolom, masukkan daftar judul kolom yang dibatasi koma.

  • Izinkan file dengan kolom tunggal

    Untuk diklasifikasikan sebagaiCSV, data harus memiliki setidaknya dua kolom dan dua baris data. Gunakan opsi ini untuk mengizinkan pengolahan file yang berisi hanya satu kolom.

  • Potong spasi sebelum mengidentifikasi nilai kolom

    Opsi ini menentukan apakah akan memotong nilai sebelum mengidentifikasi jenis nilai kolom.

  • Jenis data khusus

    (Opsional) - Masukkan tipe data khusus dalam daftar yang dibatasi koma. Jenis data yang didukung adalah: “BINARY”, “”, “BOOLEAN”, “DATE”, “DECIMAL”, “DOUBLE”, “FLOAT”, “INT”, “LONG”, “SHORT”, “STRING”. TIMESTAMP

  • CSVSerde

    (Opsional) - A SerDe untuk diproses CSV di classifier, yang akan diterapkan dalam Katalog Data. Pilih dariOpen CSV SerDe,Lazy Simple SerDe, atauNone. Anda dapat menentukan None nilai saat Anda ingin crawler melakukan deteksi.

Untuk informasi selengkapnya, lihat Menulis pengklasifikasi khusus untuk beragam format data.

Melihat pengklasifikasi

Untuk melihat daftar semua pengklasifikasi yang telah Anda buat, buka AWS Glue konsol di https://console.aws.amazon.com/glue/, dan pilih tab Pengklasifikasi.

Daftar tersebut menampilkan properti berikut tentang masing-masing pengklasifikasi:

  • Pengklasifikasi — Nama pengklasifikasi. Saat Anda menciptakan pengklasifikasi, Anda harus menyediakan nama untuknya.

  • Klasifikasi — Jenis klasifikasi tabel yang disimpulkan oleh pengklasifikasi ini.

  • Terakhir diperbarui — Terakhir kali pengklasifikasi ini diperbarui.

Mengelola pengklasifikasi

Dari daftar Pengklasifikasi di konsol AWS Glue tersebut, Anda dapat menambahkan, mengedit, dan menghapus pengklasifikasi. Untuk melihat detail lebih lanjut untuk pengklasifikasi, pilih nama pengklasifikasi dalam daftar itu. Detail mencakup informasi yang Anda tetapkan saat Anda membuat pengklasifikasi.