Bekerja dengan transformasi pembelajaran mesin - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bekerja dengan transformasi pembelajaran mesin

Anda dapat menggunakan AWS Glue untuk membuat transformasi pembelajaran mesin khusus yang dapat digunakan untuk membersihkan data Anda. Anda dapat menggunakan transformasi ini saat membuat tugas di konsol AWS Glue .

Untuk informasi lebih lanjut tentang cara membuat transformasi machine learning, lihat Rekam pencocokan dengan AWS Lake Formation FindMatches.

Mengubah properti

Untuk melihat transformasi pembelajaran mesin yang ada, masuk ke AWS Management Console, dan buka AWS Glue konsol di https://console.aws.amazon.com/glue/. Di panel navigasi di bawah Integrasi Data dan ETL, pilih Alat klasifikasi data > Pencocokan Rekam.

Properti untuk setiap transformasi:

Nama transformasi

Nama unik yang Anda berikan pada transformasi saat Anda membuatnya.

ID

Sebuah pengenal unik untuk transformasi.

Jumlah label

Jumlah label dalam file pelabelan yang disediakan untuk membantu mengajarkan transformasi.

Status

Menunjukkan apakah transformasi dalam status Siap atau Perlu pelatihan. Untuk menjalankan transformasi machine learning dengan berhasil dalam sebuah tugas, maka ia harus Siap.

Dibuat

Tanggal transformasi dibuat.

Dimodifikasi

Tanggal transformasi terakhir diperbarui.

Deskripsi

Deskripsi disediakan untuk transformasi, jika ada.

Versi AWS Glue

Versi yang AWS Glue digunakan.

Jalankan ID

Nama unik yang Anda berikan pada transformasi saat Anda membuatnya.

Jenis tugas

Jenis transformasi machine learning; misalnya Menemukan catatan yang cocok.

Status

Menunjukkan status tugas yang dijalankan. Status yang mungkin meliputi:

  • Starting

  • Berjalan

  • Stopping

  • Dihentikan

  • Berhasil

  • Failed

  • Waktu habis

Kesalahan

Jika status Gagal, pesan kesalahan ditampilkan menjelaskan alasan kegagalan.

Menambahkan dan mengedit transformasi pembelajaran mesin

Anda dapat melihat, menghapus, mengatur, dan mengajar, atau menyetel transformasi di konsol AWS Glue. Pilih kotak centang di samping transformasi yang ada dalam daftar, pilih Tindakan, kemudian pilih tindakan yang ingin Anda ambil.

Membuat transformasi ML baru

Untuk menambahkan transformasi pembelajaran mesin baru, pilih Buat transformasi. Ikuti petunjuk di Add job wizard. Untuk informasi selengkapnya, lihat Rekam pencocokan dengan AWS Lake Formation FindMatches.

Langkah 1. Tetapkan properti transformasi.

  1. Masukkan nama dan deskripsi (opsional).

  2. Secara opsional, atur konfigurasi keamanan. Lihat Menggunakan enkripsi data dengan transformasi pembelajaran mesin.

  3. Secara opsional, atur pengaturan eksekusi tugas. Pengaturan eksekusi tugas memungkinkan Anda untuk menyesuaikan bagaimana tugas dijalankan. Pilih jenis Pekerja, jumlah pekerja, batas waktu tugas (dalam menit), jumlah percobaan ulang, dan versi. AWS Glue

  4. Secara opsional, atur Tag. Tag adalah label yang dapat Anda tetapkan ke AWS sumber daya. Setiap tanda terdiri dari kunci dan nilai opsional. Tag dapat digunakan untuk mencari dan memfilter sumber daya Anda atau melacak AWS biaya Anda.

Langkah 2. Pilih tabel dan kunci utama.

  1. Pilih database dan tabel AWS Glue Katalog.

  2. Pilih kunci utama dari tabel yang dipilih. Kolom kunci primer biasanya berisi pengidentifikasi unik untuk setiap catatan dalam sumber data.

Langkah 3. Pilih opsi penyetelan.

  1. Untuk Recall vs presisi, pilih nilai tuning untuk menyetel transformasi agar mendukung penarikan atau presisi. Secara default, Balanced dipilih, tetapi Anda dapat memilih untuk memilih untuk mengingat atau mendukung presisi, atau memilih Custom dan memasukkan nilai antara 0,0 dan 1,0 (inklusif).

  2. Untuk biaya lebih rendah vs akurasi, pilih nilai tuning untuk mendukung biaya atau akurasi yang lebih rendah, atau pilih Custom dan masukkan nilai antara 0,0 dan 1,0 (inklusif).

  3. Untuk penegakan Match, pilih Paksa output agar sesuai dengan label jika Anda ingin mengajarkan transformasi ML dengan memaksa output agar sesuai dengan label yang digunakan.

Langkah 4. Tinjau dan buat.

  1. Tinjau opsi untuk langkah 1 - 3.

  2. Pilih Edit untuk setiap langkah yang perlu dimodifikasi. Pilih Buat transformasi untuk menyelesaikan wizard buat transformasi.

Menggunakan enkripsi data dengan transformasi pembelajaran mesin

Saat menambahkan transformasi machine learning ke AWS Glue, Anda dapat menentukan konfigurasi keamanan yang dikaitkan dengan sumber data atau target data. Jika bucket Amazon S3 digunakan untuk menyimpan, maka data dienkripsi dengan konfigurasi keamanan, tentukan konfigurasi keamanan yang sama saat membuat transformasi.

Anda juga dapat memilih untuk menggunakan enkripsi sisi server dengan AWS KMS (SSE-KMS) untuk mengenkripsi model dan label untuk mencegah orang yang tidak berwenang memeriksanya. Jika Anda memilih opsi ini, Anda diminta untuk memilih AWS KMS key berdasarkan nama, atau Anda dapat memilih Masukkan kunci ARN. Jika Anda memilih untuk memasukkan KMS tombol ARN untuk, bidang kedua muncul di mana Anda dapat memasukkan KMS kunciARN.

catatan

Saat ini, transformasi ML yang menggunakan kunci enkripsi kustom tidak didukung di Wilayah berikut:

  • Asia Pasifik (Osaka) - ap-northeast-3

Melihat detail transformasi

Melihat properti transformasi

Halaman properti Transform menyertakan atribut transformasi Anda. Ia menunjukkan detail tentang definisi transformasi, termasuk yang berikut:

  • Nama transformasi menunjukkan nama transformasi.

  • Jenis mencantumkan jenis transformasi.

  • Status menampilkan apakah transformasi siap untuk digunakan dalam skrip atau tugas.

  • Paksa keluaran untuk mencocokkan label menampilkan apakah transformasi memaksa output untuk mencocokkan label yang disediakan oleh pengguna.

  • Versi Spark terkait dengan versi AWS Glue yang Anda pilih di Properti eksekusi tugas saat menambahkan transformasi. AWS Glue 1.0 dan Spark 2.4 direkomendasikan untuk sebagian besar pelanggan. Untuk informasi selengkapnya, lihat Versi AWS Glue.

Riwayat, Perkirakan kualitas dan Tag tab

Detail transformasi termasuk informasi yang Anda tetapkan saat Anda membuat transformasi. Untuk melihat detail transformasi, pilih transformasi di daftar Transformasi machine learning, dan tinjau informasi pada tab berikut:

  • Riwayat

  • Estimasi kualitas

  • Tanda

Riwayat

Tab Riwayat menampilkan riwayat eksekusi tugas transformasi Anda. Beberapa jenis tugas dijalankan untuk mengajarkan transformasi. Untuk masing-masing tugas, metrik eksekusi meliputi yang berikut ini:

  • ID Eksekusi adalah sebuah pengenal yang dibuat oleh AWS Glue untuk setiap eksekusi tugas ini.

  • Jenis tugas menunjukkan jenis eksekusi tugas.

  • Status menunjukkan keberhasilan setiap tugas yang tercantum dengan eksekusi terbaru di bagian atas.

  • Kesalahan menunjukkan detail pesan kesalahan jika eksekusi tidak berhasil.

  • Waktu mulai menunjukkan tanggal dan waktu (waktu setempat) bahwa tugas dimulai.

  • Waktu akhir menunjukkan tanggal dan waktu (waktu setempat) bahwa tugas berakhir.

  • Log tautan ke log yang ditulis ke stdout untuk eksekusi tugas ini.

    Tautan Log membawa Anda ke Amazon CloudWatch Logs. Di sana Anda dapat melihat detail tentang tabel yang dibuat di AWS Glue Data Catalog dan kesalahan apa pun yang ditemui. Anda dapat mengelola periode penyimpanan log Anda di CloudWatch konsol. Retensi log default adalah Never Expire. Untuk informasi selengkapnya tentang cara mengubah periode penyimpanan, lihat Mengubah Penyimpanan Data Log di CloudWatch Log di Panduan Pengguna CloudWatch Log Amazon.

  • File label menunjukkan tautan ke Amazon S3 untuk file pelabelan yang dihasilkan.

Estimasi kualitas

Tab Estimasi Kualitas menunjukkan metrik yang Anda gunakan untuk mengukur kualitas transformasi. Estimasi dihitung dengan membandingkan prediksi kecocokan transformasi menggunakan subset dari data berlabel Anda terhadap label yang telah Anda berikan. Perkiraan ini adalah perkiraan. Anda dapat menjalankan tugas Estimasi kualitas yang dijalankan dari tab ini.

Tab Estimasi Kualitas menampilkan metrik dari eksekusi Estimasi kualitas terakhir termasuk properti berikut:

  • Area di bawah kurva Presisi-Recall adalah nomor tunggal memperkirakan batas atas kualitas keseluruhan transformasi. Ia bersifat independen tidak tergantung pada pilihan yang dibuat untuk parameter precision-recall. Nilai yang lebih tinggi menunjukkan bahwa Anda memiliki precision-recall tradeoff yang lebih menarik.

  • Precision memperkirakan seberapa sering transformasi benar ketika memprediksi kecocokan.

  • Batas atas recall memperkirakan bahwa untuk kecocokan yang sebenarnya, seberapa sering transformasi memprediksi kecocokan.

  • F1 memperkirakan akurasi transformasi antara 0 dan 1, di mana 1 adalah akurasi terbaik. Untuk informasi selengkapnya, lihat Skor F1 di Wikipedia.

  • Tabel Nilai penting kolom menunjukkan nama kolom dan nilai pentingnya untuk setiap kolom. Nilai penting kolom membantu Anda memahami bagaimana kolom berkontribusi pada model Anda, dengan mengidentifikasi kolom dalam catatan Anda yang paling sering digunakan untuk melakukan pencocokan. Data ini dapat meminta Anda untuk menambah atau mengubah label Anda untuk meningkatkan atau menurunkan nilai penting kolom.

    Nilai penting kolom memberikan skor numerik untuk setiap kolom, dengan angka desimal tidak lebih besar dari 1,0.

Untuk informasi tentang memahami estimasi kualitas dibandingkan kualitas sebenarnya, lihat Perkiraan kualitas versus kualitas end-to-end (benar).

Untuk informasi lebih lanjut tentang cara menyetel transformasi Anda, lihat Pembelajaran mesin tuning berubah di AWS Glue.

Perkiraan kualitas versus kualitas end-to-end (benar)

AWS Gluememperkirakan kualitas transformasi Anda dengan menyajikan model internal yang dipelajari mesin dengan sejumlah pasang catatan yang Anda berikan label yang cocok tetapi model tersebut belum pernah terlihat sebelumnya. Estimasi kualitas ini adalah fungsi dari kualitas model yang dipelajari mesin (yang dipengaruhi oleh jumlah catatan yang Anda beri label untuk “mengajarkan” transformasi). Ingatan end-to-end, atau true (yang tidak dihitung secara otomatis olehML transform) juga dipengaruhi oleh mekanisme ML transform penyaringan yang mengusulkan berbagai kemungkinan kecocokan dengan model yang dipelajari mesin.

Anda dapat menyetel metode penyaringan ini terutama dengan menentukan nilai tuning Akurasi Biaya Rendah. Karena nilai tuning semakin mendekati Akurasi, sistem melakukan pencarian yang lebih menyeluruh dan mahal untuk pasangan catatan yang mungkin cocok. Lebih banyak pasang catatan diumpankan ke model yang dipelajari mesin Anda, dan ingatan Anda ML transform end-to-end atau sebenarnya mendekati metrik penarikan yang diperkirakan. Akibatnya, perubahan end-to-end kualitas pertandingan Anda sebagai akibat dari perubahan tradeoff biaya/akurasi untuk pertandingan Anda biasanya tidak akan tercermin dalam perkiraan kualitas.

Tanda

Tag adalah label yang dapat Anda tetapkan ke AWS sumber daya. Setiap tanda terdiri dari kunci dan nilai opsional. Tag dapat digunakan untuk mencari dan memfilter sumber daya Anda atau melacak AWS biaya Anda.

Ajarkan transformasi menggunakan label

Anda dapat mengajarkan transformasi ML menggunakan label (contoh) dengan memilih Teach transform dari halaman detail transformasi ML. Saat Anda mengajarkan algoritma pembelajaran mesin Anda dengan memberikan contoh (disebut label), Anda dapat memilih label yang ada untuk digunakan, atau membuat file pelabelan.

Tangkapan layar menampilkan layar wizard untuk Ajarkan transformasi menggunakan label.
  • Pelabelan — Jika Anda memiliki label, pilih Saya memiliki label. Jika Anda tidak memiliki label, Anda masih dapat melanjutkan dengan langkah berikutnya dalam menghasilkan file pelabelan.

  • Hasilkan file pelabelan — AWS Glue ekstrak catatan dari data sumber Anda dan sarankan catatan pencocokan potensial. Anda memilih bucket Amazon S3 untuk menyimpan file label yang dihasilkan. Pilih Hasilkan file pelabelan untuk memulai proses. Setelah selesai, pilih Unduh file pelabelan. File yang diunduh akan memiliki kolom untuk label tempat Anda dapat mengisi label.

  • Unggah label dari Amazon S3 — Pilih file pelabelan yang sudah selesai dari bucket Amazon S3 tempat file label disimpan. Kemudian, pilih untuk menambahkan label ke label yang ada atau menimpa label yang ada. Pilih Unggah file pelabelan dari Amazon S3.