Wawasan Data - Amazon Machine Learning

Kami tidak lagi memperbarui layanan Amazon Machine Learning atau menerima pengguna baru untuk itu. Dokumentasi ini tersedia untuk pengguna yang sudah ada, tetapi kami tidak lagi memperbaruinya. Untuk informasi selengkapnya, lihatApa itu Amazon Machine Learning.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Wawasan Data

Amazon ML-menghitung statistik deskriptif pada data masukan yang dapat Anda gunakan untuk memahami data Anda.

Statistik deskriptif

Amazon ML-menghitung statistik deskriptif berikut untuk jenis atribut yang berbeda:

Numerik:

  • Histogram distribusi

  • Jumlah nilai tidak valid

  • Nilai minimum, median, mean, dan maksimum

Biner dan kategoris:

  • Hitung (dari nilai yang berbeda per kategori)

  • Histogram distribusi nilai

  • Nilai yang paling sering

  • Nilai unik dihitung

  • Persentase nilai sebenarnya (hanya biner)

  • Kata yang paling menonjol

  • Kata yang paling sering

Teks:

  • Nama atribut

  • Korelasi terhadap target (jika target ditetapkan)

  • Kata Total

  • Kata unik

  • Rentang jumlah kata berturut-turut

  • Rentang panjang kata

  • Kata yang paling menonjol

Mengakses Wawasan Data di konsol Amazon ML-nya

Pada konsol Amazon XML, Anda dapat memilih nama atau ID dari sumber data apa pun untuk melihatnyaWawasan Datahalaman. Halaman ini menyediakan metrik dan visualisasi yang memungkinkan Anda mempelajari data input yang terkait dengan sumber data, termasuk informasi berikut:

  • Ringkasan data

  • Distribusi target

  • Nilai yang Hilang

  • Nilai tidak valid

  • Ringkasan statistik variabel berdasarkan tipe data

  • Distribusi variabel berdasarkan tipe data

Bagian berikut menjelaskan metrik dan visualisasi secara lebih detail.

Ringkasan data

Laporan ringkasan data dari sumber data menampilkan informasi ringkasan, termasuk ID sumber data, nama, tempat selesai, status saat ini, atribut target, informasi data input (lokasi bucket S3, format data, jumlah catatan yang diproses dan jumlah catatan buruk yang dihadapi selama pemrosesan) juga sebagai jumlah variabel dengan tipe data.

Distribusi target

Laporan distribusi target menunjukkan distribusi atribut target dari sumber data. Pada contoh berikut, ada 39,922 observasi di mana atribut target willRespondToCampaign sama dengan 0. Ini adalah jumlah pelanggan yang tidak menanggapi kampanye email. Ada 5,289 pengamatan di mana WillRespondToCampaign sama dengan 1. Ini adalah jumlah pelanggan yang menanggapi kampanye email.

Bar chart showing target distributions for willRespondToCampaign: 39,922 for one category, 5,289 for another.

Nilai yang Hilang

Laporan nilai yang hilang mencantumkan atribut dalam data input yang nilainya hilang. Hanya atribut dengan tipe data numerik yang dapat memiliki nilai yang hilang. Karena nilai yang hilang dapat memengaruhi kualitas pelatihan model ML-nya, kami menyarankan agar nilai yang hilang diberikan, jika memungkinkan.

Selama pelatihan model ML, jika atribut target hilang, Amazon ML-menolak rekaman yang sesuai. Jika atribut target ada dalam catatan, namun nilai untuk atribut numerik lain hilang, maka Amazon MLnya akan mengabaikan nilai yang hilang. Dalam hal ini, Amazon XML membuat atribut pengganti dan menetapkannya ke 1 untuk menunjukkan bahwa atribut ini hilang. Hal ini memungkinkan Amazon ML-mempelajari pola dari terjadinya nilai yang hilang.

Nilai Tidak Valid

Nilai tidak valid hanya dapat terjadi dengan tipe data Numerik dan Biner. Anda dapat menemukan nilai yang tidak valid dengan melihat statistik ringkasan variabel dalam laporan tipe data. Dalam contoh berikut, ada satu nilai yang tidak valid dalam durasi atribut numerik dan dua nilai tidak valid dalam tipe data Biner (satu di atribut perumahan dan satu di atribut pinjaman).

Table showing numeric variable "duration" with correlations, missing values, range, mean, and median.

Table showing binary variables with correlations, percentages, and invalid values for campaign data.

Korelasi Variabel-Target

Setelah Anda membuat sumber data, Amazon L dapat mengevaluasi sumber data dan mengidentifikasi korelasi, atau dampak, antara variabel dan target. Misalnya, harga produk mungkin memiliki dampak yang signifikan pada apakah atau tidak itu adalah penjual terbaik, sedangkan dimensi produk mungkin memiliki sedikit daya prediktif.

Ini umumnya merupakan praktik terbaik untuk memasukkan sebanyak mungkin variabel dalam data pelatihan Anda. Namun, kebisingan yang diperkenalkan dengan memasukkan banyak variabel dengan sedikit daya prediktif mungkin berdampak negatif pada kualitas dan keakuratan model ML-mu.

Anda mungkin dapat meningkatkan kinerja prediktif model Anda dengan menghapus variabel yang memiliki dampak kecil ketika Anda melatih model Anda. Anda dapat menentukan variabel mana yang tersedia untuk proses pembelajaran mesin dalamresep, yang merupakan mekanisme transformasi Amazon ML-nya. Untuk mempelajari lebih lanjut tentang resep, lihatTransformasi Data untuk Machine Learning.

Ringkasan Statistik Atribut berdasarkan Tipe Data

Dalam laporan wawasan data, Anda dapat melihat statistik ringkasan atribut berdasarkan tipe data berikut:

  • Biner

  • Kategorik

  • Numerik

  • Teks

Ringkasan statistik untuk tipe data Biner menunjukkan semua atribut biner. ParameterKorelasi untuk menargetkankolom menunjukkan informasi yang dibagikan antara kolom target dan kolom atribut. ParameterPersen benarkolom menunjukkan persentase pengamatan yang memiliki nilai 1. ParameterNilai tidak validkolom menunjukkan jumlah nilai yang tidak valid serta persentase nilai yang tidak valid untuk setiap atribut. ParameterPratinjaukolom menyediakan link ke distribusi grafis untuk setiap atribut.

Table showing binary variables with correlations, percentages, and invalid values for campaign data.

Ringkasan statistik untuk tipe data kategoris menunjukkan semua atribut kategoris dengan jumlah nilai unik, nilai yang paling sering, dan nilai yang paling sering. ParameterPratinjaukolom menyediakan link ke distribusi grafis untuk setiap atribut.

Table showing categorical variables with correlations, unique values, and frequency data.

Statistik ringkasan untuk tipe data Numerik menunjukkan semua atribut Numerik dengan jumlah nilai yang hilang, nilai tidak valid, rentang nilai, mean, dan median. ParameterPratinjaukolom menyediakan link ke distribusi grafis untuk setiap atribut.

Table showing numeric variable "duration" with correlations, missing values, range, mean, and median.

Statistik ringkasan untuk tipe data Teks menunjukkan semua atribut Teks, jumlah kata dalam atribut itu, jumlah kata unik dalam atribut itu, rentang kata dalam atribut, rentang panjang kata, dan kata-kata yang paling menonjol. ParameterPratinjaukolom menyediakan link ke distribusi grafis untuk setiap atribut.

Table showing text attributes with correlations, word counts, and ranges for a phrase.

Contoh berikutnya menunjukkan statistik tipe data Teks untuk variabel teks yang disebut review, dengan empat catatan.

1. The fox jumped over the fence. 2. This movie is intriguing. 3. 4. Fascinating movie.

Kolom untuk contoh ini akan menampilkan informasi berikut.

  • ParameterAtributkolom menunjukkan nama variabel. Dalam contoh ini, kolom ini akan mengatakan “review.”

  • ParameterKorelasi untuk menargetkankolom hanya ada jika target ditentukan. Korelasi mengukur jumlah informasi yang diberikan atribut ini tentang target. Semakin tinggi korelasi, semakin banyak atribut ini memberitahu Anda tentang target. Korelasi diukur dalam hal informasi bersama antara representasi disederhanakan dari atribut teks dan target.

  • ParameterKata Totalkolom menunjukkan jumlah kata yang dihasilkan dari tokenizing setiap record, membatasi kata-kata dengan spasi putih. Dalam contoh ini, kolom ini akan mengatakan “12".

  • ParameterKata unikkolom menunjukkan jumlah kata unik untuk atribut. Dalam contoh ini, kolom ini akan mengatakan “10.”

  • ParameterKata-kata dalam atribut (range)kolom menunjukkan jumlah kata dalam satu baris dalam atribut. Dalam contoh ini, kolom ini akan mengatakan “0-6.”

  • ParameterPanjang kata (rentang)kolom menunjukkan kisaran berapa banyak karakter dalam kata-kata. Dalam contoh ini, kolom ini akan mengatakan “2-11.”

  • ParameterKata yang paling menonjolkolom menunjukkan daftar peringkat kata-kata yang muncul dalam atribut. Jika ada atribut target, kata-kata diberi peringkat berdasarkan korelasi mereka dengan target, yang berarti bahwa kata-kata yang memiliki korelasi tertinggi tercantum terlebih dahulu. Jika tidak ada target yang ada dalam data, maka kata-kata tersebut diberi peringkat oleh entropi mereka.

Memahami Distribusi Atribut Kategoris dan Biner

Dengan mengklikPratinjaulink yang terkait dengan atribut kategoris atau biner, Anda dapat melihat distribusi atribut itu serta data sampel dari file input untuk setiap nilai kategoris atribut.

Misalnya, tangkapan layar berikut menunjukkan distribusi untuk atribut kategoris jobId. Distribusi menampilkan 10 nilai kategoris teratas, dengan semua nilai lainnya dikelompokkan sebagai “lainnya”. Ini peringkat masing-masing dari 10 nilai kategoris teratas dengan jumlah pengamatan dalam file input yang berisi nilai itu, serta link untuk melihat pengamatan sampel dari file data input.

Bar chart showing top 10 job categories, with blue-collar jobs having the highest count at 9,732.

Memahami Distribusi Atribut Numerik

Untuk melihat distribusi atribut numerik, klikPratinjaulink dari atribut. Saat melihat distribusi atribut numerik, Anda dapat memilih ukuran bin 500, 200, 100, 50, atau 20. Semakin besar ukuran bin, jumlah yang lebih kecil dari grafik batang yang akan ditampilkan. Selain itu, resolusi distribusi akan kasar untuk ukuran bin besar. Sebaliknya, pengaturan ukuran bucket ke 20 meningkatkan resolusi distribusi yang ditampilkan.

Nilai minimum, dan maksimum juga ditampilkan, seperti yang ditunjukkan pada tangkapan layar berikut.

Histogram showing duration distribution, with highest frequency near 0 and decreasing as duration increases.

Memahami Distribusi Atribut Teks

Untuk melihat distribusi atribut teks, klikPratinjaulink dari atribut. Saat melihat distribusi atribut teks, Anda akan melihat informasi berikut.

Table showing word prominence and count for phrases, with "enters" and "trust" ranking highest.

Peringkat

Token teks diberi peringkat berdasarkan jumlah informasi yang mereka sampaikan, paling informatif hingga paling informatif.

Token

Token menunjukkan kata dari teks masukan bahwa deretan statistik adalah tentang.

Kata menonjol

Jika ada atribut target, kata-kata diberi peringkat berdasarkan korelasi mereka dengan target, sehingga kata-kata yang memiliki korelasi tertinggi tercantum terlebih dahulu. Jika tidak ada target hadir dalam data, maka kata-kata peringkat oleh entropi mereka, yaitu, jumlah informasi yang mereka dapat berkomunikasi.

Jumlah hitungan

Jumlah hitung menunjukkan jumlah catatan masukan bahwa token muncul di.

Persentase

Persentase hitungan menunjukkan persentase baris data input token muncul di.