Dapatkan Wawasan Tentang Kualitas Data dan Data - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Dapatkan Wawasan Tentang Kualitas Data dan Data

Gunakan Laporan Kualitas Data dan Wawasan untuk melakukan analisis data yang telah Anda impor ke Data Wrangler. Kami menyarankan Anda membuat laporan setelah Anda mengimpor dataset Anda. Anda dapat menggunakan laporan untuk membantu Anda membersihkan dan memproses data Anda. Ini memberi Anda informasi seperti jumlah nilai yang hilang dan jumlah outlier. Jika Anda memiliki masalah dengan data Anda, seperti kebocoran target atau ketidakseimbangan, laporan wawasan dapat membawa masalah tersebut ke perhatian Anda.

Gunakan prosedur berikut untuk membuat laporan Kualitas Data dan Wawasan. Ini mengasumsikan bahwa Anda telah mengimpor dataset ke dalam aliran Data Wrangler Anda.

Untuk membuat laporan Kualitas Data dan Wawasan
  1. Pilih + di sebelah node dalam alur Data Wrangler Anda.

  2. Pilih Dapatkan wawasan data.

  3. Untuk nama Analisis, tentukan nama untuk laporan wawasan.

  4. (Opsional) Untuk kolom Target, tentukan kolom target.

  5. Untuk jenis Masalah, tentukan Regresi atau Klasifikasi.

  6. Untuk ukuran Data, tentukan salah satu dari berikut ini:

    • 50 K — Menggunakan 50000 baris pertama dari kumpulan data yang telah Anda impor untuk membuat laporan.

    • Seluruh kumpulan data — Menggunakan seluruh kumpulan data yang telah Anda impor untuk membuat laporan.

    catatan

    Membuat laporan Kualitas Data dan Wawasan di seluruh kumpulan data menggunakan pekerjaan SageMaker pemrosesan Amazon. Pekerjaan SageMaker pemrosesan menyediakan sumber daya komputasi tambahan yang diperlukan untuk mendapatkan wawasan untuk semua data Anda. Untuk informasi selengkapnya tentang SageMaker memproses pekerjaan, lihatGunakan pekerjaan pemrosesan untuk menjalankan beban kerja transformasi data.

  7. Pilih Buat.

Topik berikut menunjukkan bagian laporan:

Anda dapat mengunduh laporan atau melihatnya secara online. Untuk mengunduh laporan, pilih tombol unduh di sudut kanan atas layar. Gambar berikut menunjukkan tombol.

Ringkasan

Laporan wawasan memiliki ringkasan singkat dari data yang mencakup informasi umum seperti nilai yang hilang, nilai tidak valid, jenis fitur, jumlah outlier, dan banyak lagi. Ini juga dapat mencakup peringatan tingkat keparahan tinggi yang menunjukkan kemungkinan masalah dengan data. Kami menyarankan Anda menyelidiki peringatan tersebut.

Berikut ini adalah contoh ringkasan laporan.

Kolom target

Saat Anda membuat laporan kualitas data dan wawasan, Data Wrangler memberi Anda opsi untuk memilih kolom target. Kolom target adalah kolom yang Anda coba prediksi. Saat Anda memilih kolom target, Data Wrangler secara otomatis membuat analisis kolom target. Ini juga memberi peringkat fitur dalam urutan kekuatan prediksi mereka. Saat memilih kolom target, Anda harus menentukan apakah Anda mencoba memecahkan masalah regresi atau klasifikasi.

Untuk klasifikasi, Data Wrangler menunjukkan tabel dan histogram dari kelas yang paling umum. Kelas adalah kategori. Ini juga menyajikan pengamatan, atau baris, dengan nilai target yang hilang atau tidak valid.

Gambar berikut menunjukkan contoh analisis kolom target untuk masalah klasifikasi.

Untuk regresi, Data Wrangler menunjukkan histogram semua nilai di kolom target. Ini juga menyajikan pengamatan, atau baris, dengan nilai target yang hilang, tidak valid, atau outlier.

Gambar berikut menunjukkan contoh analisis kolom target untuk masalah regresi.

Model cepat

Model Cepat memberikan perkiraan kualitas prediksi yang diharapkan dari model yang Anda latih pada data Anda.

Data Wrangler membagi data Anda menjadi lipatan pelatihan dan validasi. Ini menggunakan 80% sampel untuk pelatihan dan 20% dari nilai untuk validasi. Untuk klasifikasi, sampel dibagi bertingkat. Untuk pemisahan bertingkat, setiap partisi data memiliki rasio label yang sama. Untuk masalah klasifikasi, penting untuk memiliki rasio label yang sama antara lipatan pelatihan dan klasifikasi. Data Wrangler melatih model XGBoost dengan hyperparameters default. Ini berlaku penghentian awal pada data validasi dan melakukan preprocessing fitur minimal.

Untuk model klasifikasi, Data Wrangler mengembalikan ringkasan model dan matriks kebingungan.

Berikut ini adalah contoh ringkasan model klasifikasi. Untuk mempelajari lebih lanjut tentang informasi yang dikembalikan, lihatKetentuan.

Berikut ini adalah contoh matriks kebingungan yang dikembalikan oleh model cepat.

Matriks kebingungan memberi Anda informasi berikut:

  • Berapa kali label yang diprediksi cocok dengan label sebenarnya.

  • Berapa kali label yang diprediksi tidak cocok dengan label sebenarnya.

Label sebenarnya mewakili pengamatan aktual dalam data Anda. Misalnya, jika Anda menggunakan model untuk mendeteksi transaksi penipuan, label sebenarnya mewakili transaksi yang sebenarnya curang atau tidak curang. Label yang diprediksi mewakili label yang ditetapkan model Anda ke data.

Anda dapat menggunakan matriks kebingungan untuk melihat seberapa baik model memprediksi ada atau tidak adanya suatu kondisi. Jika Anda memprediksi transaksi penipuan, Anda dapat menggunakan matriks kebingungan untuk memahami sensitivitas dan kekhususan model. Sensitivitas mengacu pada kemampuan model untuk mendeteksi transaksi penipuan. Kekhususan mengacu pada kemampuan model untuk menghindari mendeteksi transaksi non-penipuan sebagai penipuan.

Berikut ini adalah contoh output model cepat untuk masalah regresi.

Ringkasan fitur

Saat Anda menentukan kolom target, Data Wrangler memesan fitur berdasarkan kekuatan prediksinya. Kekuatan prediksi diukur pada data setelah dibagi menjadi 80% pelatihan dan 20% lipatan validasi. Data Wrangler cocok dengan model untuk setiap fitur secara terpisah pada lipatan pelatihan. Ini menerapkan preprocessing fitur minimal dan mengukur kinerja prediksi pada data validasi.

Ini menormalkan skor ke kisaran [0,1]. Skor prediksi yang lebih tinggi menunjukkan kolom yang lebih berguna untuk memprediksi target sendiri. Skor yang lebih rendah menunjuk ke kolom yang tidak memprediksi kolom target.

Ini jarang untuk kolom yang tidak prediktif sendiri untuk menjadi prediktif ketika digunakan bersama-sama dengan kolom lain. Anda dapat dengan yakin menggunakan skor prediksi untuk menentukan apakah fitur dalam kumpulan data Anda bersifat prediktif.

Skor rendah biasanya menunjukkan fitur tersebut berlebihan. Skor 1 menyiratkan kemampuan prediksi sempurna, yang sering menunjukkan kebocoran target. Kebocoran target biasanya terjadi ketika kumpulan data berisi kolom yang tidak tersedia pada waktu prediksi. Misalnya, itu bisa menjadi duplikat dari kolom target.

Berikut ini adalah contoh tabel dan histogram yang menunjukkan nilai prediksi masing-masing fitur.

Sampel

Data Wrangler memberikan informasi tentang apakah sampel Anda anomali atau jika ada duplikat dalam kumpulan data Anda.

Data Wrangler mendeteksi sampel anomali menggunakan algoritma hutan isolasi. Hutan isolasi mengaitkan skor anomali dengan setiap sampel (baris) dari kumpulan data. Skor anomali yang rendah menunjukkan sampel anomali. Skor tinggi dikaitkan dengan sampel non-anomali. Sampel dengan skor anomali negatif biasanya dianggap anomali dan sampel dengan skor anomali positif dianggap non-anomali.

Ketika Anda melihat sampel yang mungkin anomali, kami sarankan Anda memperhatikan nilai-nilai yang tidak biasa. Misalnya, Anda mungkin memiliki nilai anomali yang dihasilkan dari kesalahan dalam mengumpulkan dan memproses data. Berikut ini adalah contoh sampel yang paling anomali menurut implementasi data Wrangler dari algoritma hutan isolasi. Sebaiknya gunakan pengetahuan domain dan logika bisnis saat Anda memeriksa sampel anomali.

Data Wrangler mendeteksi baris duplikat dan menghitung rasio baris duplikat dalam data Anda. Beberapa sumber data dapat menyertakan duplikat yang valid. Sumber data lain dapat memiliki duplikat yang menunjukkan masalah dalam pengumpulan data. Sampel duplikat yang dihasilkan dari pengumpulan data yang salah dapat mengganggu proses pembelajaran mesin yang mengandalkan pemisahan data menjadi pelatihan independen dan lipatan validasi.

Berikut ini adalah elemen laporan wawasan yang dapat dipengaruhi oleh sampel duplikat:

  • Model cepat

  • Estimasi daya prediksi

  • Penyetelan hyperparameter otomatis

Anda dapat menghapus sampel duplikat dari kumpulan data menggunakan transformasi Drop duplikat di bawah Kelola baris. Data Wrangler menunjukkan baris yang paling sering diduplikasi.

Ketentuan

Berikut ini adalah definisi untuk istilah teknis yang digunakan dalam laporan wawasan data.

Feature types

Berikut ini adalah definisi untuk masing-masing jenis fitur:

  • Numerik — Nilai numerik dapat berupa float atau bilangan bulat, seperti usia atau pendapatan. Model pembelajaran mesin mengasumsikan bahwa nilai numerik diurutkan dan jarak ditentukan di atasnya. Misalnya, 3 lebih dekat ke 4 daripada 10 dan 3 < 4 < 10.

  • Categorical - Entri kolom milik satu set nilai unik, yang biasanya jauh lebih kecil dari jumlah entri di kolom. Misalnya, kolom dengan panjang 100 dapat berisi nilai unikDog,Cat, danMouse. Nilainya bisa berupa numerik, teks, atau kombinasi keduanya. Horse,House,8,Love, dan semuanya 3.1 akan menjadi nilai yang valid dan dapat ditemukan di kolom kategoris yang sama. Model pembelajaran mesin tidak mengasumsikan urutan atau jarak pada nilai-nilai fitur kategoris, sebagai lawan dari fitur numerik, bahkan ketika semua nilai adalah angka.

  • Biner — Fitur biner adalah jenis fitur kategoris khusus di mana kardinalitas himpunan nilai unik adalah 2.

  • Teks - Kolom teks berisi banyak nilai unik non-numerik. Dalam kasus ekstrim, semua elemen kolom itu unik. Dalam kasus ekstrim, tidak ada dua entri yang sama.

  • Datetime - Kolom datetime berisi informasi tentang tanggal atau waktu. Ini dapat memiliki informasi tentang tanggal dan waktu.

Feature statistics

Berikut ini adalah definisi untuk masing-masing statistik fitur:

  • Kekuatan prediksi — Kekuatan prediksi mengukur seberapa berguna kolom dalam memprediksi target.

  • Outlier (dalam kolom numerik) — Data Wrangler mendeteksi outlier menggunakan dua statistik yang kuat untuk outlier: median dan solid standard deviation (RSTD). RSTD diturunkan dengan memotong nilai fitur ke kisaran [5 persentil, 95 persentil] dan menghitung standar deviasi vektor yang terpotong. Semua nilai yang lebih besar dari median + 5* RSTD atau lebih kecil dari median - 5 * RSTD dianggap outlier.

  • Skew (dalam kolom numerik) — Skew mengukur simetri distribusi dan didefinisikan sebagai momen ketiga distribusi dibagi dengan kekuatan ketiga dari standar deviasi. Kemiringan distribusi normal atau distribusi simetris lainnya adalah nol. Nilai positif menyiratkan bahwa ekor kanan distribusi lebih panjang dari ekor kiri. Nilai negatif menyiratkan bahwa ekor kiri distribusi lebih panjang dari ekor kanan. Sebagai aturan praktis, distribusi dianggap miring ketika nilai absolut kemiringan lebih besar dari 3.

  • Kurtosis (dalam kolom numerik) — Kurtosis Pearson mengukur beratnya ekor distribusi. Ini didefinisikan sebagai momen keempat dari distribusi dibagi dengan kuadrat dari momen kedua. Kurtosis dari distribusi normal adalah 3. Nilai kurtosis yang lebih rendah dari 3 menyiratkan bahwa distribusi terkonsentrasi di sekitar rata-rata dan ekor lebih ringan dari ekor distribusi normal. Nilai kurtosis lebih tinggi dari 3 menyiratkan ekor atau outlier yang lebih berat.

  • Nilai yang hilang - Objek seperti nol, string kosong, dan string yang hanya terdiri dari spasi putih dianggap hilang.

  • Nilai yang valid untuk fitur numerik atau target regresi - Semua nilai yang dapat Anda lemparkan ke float terbatas valid. Nilai yang hilang tidak valid.

  • Nilai yang valid untuk fitur kategoris, biner, atau teks, atau untuk target klasifikasi - Semua nilai yang tidak hilang valid.

  • Fitur Datetime - Semua nilai yang dapat Anda transmisikan ke objek datetime valid. Nilai yang hilang tidak valid.

  • Nilai tidak valid - Nilai yang hilang atau Anda tidak dapat mentransmisikan dengan benar. Misalnya, dalam kolom numerik, Anda tidak dapat mentransmisikan string "six" atau nilai null.

Quick model metrics for regression

Berikut ini adalah definisi untuk metrik model cepat:

  • R2 atau koefisien determinasi) — R2 adalah proporsi variasi target yang diprediksi oleh model. R2 berada dalam kisaran [-infty, 1]. 1 adalah skor model yang memprediksi target dengan sempurna dan 0 adalah skor model sepele yang selalu memprediksi rata-rata target.

  • MSE atau kesalahan kuadrat rata-rata — MSE berada dalam kisaran [0, infty]. 0 adalah skor model yang memprediksi target dengan sempurna.

  • MAE atau kesalahan absolut rata-rata — MAE berada dalam kisaran [0, infty] di mana 0 adalah skor model yang memprediksi target dengan sempurna.

  • RMSE atau kesalahan kuadrat rata-rata akar — RMSE berada dalam kisaran [0, infty] di mana 0 adalah skor model yang memprediksi target dengan sempurna.

  • Kesalahan maks - Nilai absolut maksimum kesalahan atas kumpulan data. Kesalahan maks ada dalam kisaran [0, infty]. 0 adalah skor model yang memprediksi target dengan sempurna.

  • Kesalahan absolut median — Kesalahan absolut median ada dalam kisaran [0, infty]. 0 adalah skor model yang memprediksi target dengan sempurna.

Quick model metrics for classification

Berikut ini adalah definisi untuk metrik model cepat:

  • Akurasi — Akurasi adalah rasio sampel yang diprediksi secara akurat. Akurasi ada dalam kisaran [0, 1]. 0 adalah skor model yang memprediksi semua sampel secara tidak benar dan 1 adalah skor model sempurna.

  • Akurasi seimbang — Akurasi seimbang adalah rasio sampel yang diprediksi secara akurat ketika bobot kelas disesuaikan untuk menyeimbangkan data. Semua kelas diberi kepentingan yang sama, terlepas dari frekuensinya. Akurasi seimbang ada dalam kisaran [0, 1]. 0 adalah skor model yang memprediksi semua sampel salah. 1 adalah skor model yang sempurna.

  • AUC (klasifikasi biner) — Ini adalah area di bawah kurva karakteristik operasi penerima. AUC berada dalam kisaran [0, 1] di mana model acak mengembalikan skor 0,5 dan model sempurna mengembalikan skor 1.

  • AUC (OVR) — Untuk klasifikasi multiclass, ini adalah area di bawah kurva karakteristik operasi penerima yang dihitung secara terpisah untuk setiap label menggunakan satu versus istirahat. Data Wrangler melaporkan rata-rata area. AUC berada dalam kisaran [0, 1] di mana model acak mengembalikan skor 0,5 dan model sempurna mengembalikan skor 1.

  • Presisi — Presisi didefinisikan untuk kelas tertentu. Presisi adalah fraksi positif sejati dari semua contoh yang diklasifikasikan model sebagai kelas itu. Presisi ada dalam kisaran [0, 1]. 1 adalah skor model yang tidak memiliki positif palsu untuk kelas. Untuk klasifikasi biner, Data Wrangler melaporkan ketepatan kelas positif.

  • Ingat — Recall didefinisikan untuk kelas tertentu. Recall adalah fraksi dari instance kelas yang relevan yang berhasil diambil. Ingat ada dalam kisaran [0, 1]. 1 adalah skor model yang mengklasifikasikan semua contoh kelas dengan benar. Untuk klasifikasi biner, Data Wrangler melaporkan penarikan kembali kelas positif.

  • F1 — F1 didefinisikan untuk kelas tertentu. Ini adalah rata-rata harmonik dari presisi dan ingatan. F1 berada dalam kisaran [0, 1]. 1 adalah skor model yang sempurna. Untuk klasifikasi biner, Data Wrangler melaporkan F1 untuk kelas dengan nilai positif.

Textual patterns

Pola menggambarkan format tekstual string menggunakan format yang mudah dibaca. Berikut ini adalah contoh pola tekstual:

  • {digits:4-7}” menggambarkan urutan digit yang memiliki panjang antara 4 dan 7.

  • {alnum:5}” menggambarkan string alfa-numerik dengan panjang tepat 5.

Data Wrangler menyimpulkan pola dengan melihat sampel string yang tidak kosong dari data Anda. Ini dapat menggambarkan banyak pola yang umum digunakan. Keyakinan yang dinyatakan sebagai persentase menunjukkan berapa banyak data yang diperkirakan cocok dengan pola. Dengan menggunakan pola tekstual, Anda dapat melihat baris mana dalam data Anda yang perlu Anda koreksi atau jatuhkan.

Berikut ini menjelaskan pola yang dapat dikenali oleh Data Wrangler:

Pola Format Tekstual

{alnum}

String alfanumerik

{apa saja}

Setiap string karakter kata

{digit}

Urutan digit

{lebih rendah}

Sebuah kata huruf kecil

{campuran}

Kata kasus campuran

{nama}

Sebuah kata yang dimulai dengan huruf kapital

{atas}

Sebuah kata huruf besar

{spasi}

karakter spasi

Karakter kata adalah garis bawah atau karakter yang mungkin muncul dalam kata dalam bahasa apa pun. Misalnya, string 'Hello_word' dan 'écoute' keduanya terdiri dari karakter kata. 'H' dan 'é' keduanya merupakan contoh karakter kata.