Pengolahan Fitur - Amazon Machine Learning

Kami tidak lagi memperbarui layanan Amazon Machine Learning atau menerima pengguna baru untuk itu. Dokumentasi ini tersedia untuk pengguna yang sudah ada, tetapi kami tidak lagi memperbaruinya. Untuk informasi selengkapnya, lihatApa itu Amazon Machine Learning.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pengolahan Fitur

Setelah mengenal data Anda melalui ringkasan data dan visualisasi, Anda mungkin ingin mengubah variabel Anda lebih jauh untuk membuatnya lebih bermakna. Hal ini dikenal sebagaipengolahan fitur. Misalnya, katakanlah Anda memiliki variabel yang menangkap tanggal dan waktu di mana suatu peristiwa terjadi. Tanggal dan waktu ini tidak akan pernah terjadi lagi dan karenanya tidak akan berguna untuk memprediksi target Anda. Namun, jika variabel ini diubah menjadi fitur yang mewakili jam hari, hari dalam seminggu, dan bulan, variabel ini bisa berguna untuk mengetahui apakah acara cenderung terjadi pada jam tertentu, hari kerja, atau bulan. Pemrosesan fitur tersebut untuk membentuk titik data yang lebih umum untuk dipelajari dapat memberikan perbaikan yang signifikan pada model prediktif.

Contoh lain dari pemrosesan fitur umum:

  • Mengganti data yang hilang atau tidak valid dengan nilai yang lebih berarti (misalnya, jika Anda tahu bahwa nilai yang hilang untuk variabel jenis produk sebenarnya berarti itu adalah buku, Anda kemudian dapat mengganti semua nilai yang hilang dalam jenis produk dengan nilai buku). Strategi umum yang digunakan untuk impute nilai yang hilang adalah mengganti nilai yang hilang dengan nilai rata-rata atau median. Penting untuk memahami data Anda sebelum memilih strategi untuk mengganti nilai yang hilang.

  • Membentuk produk Cartesian dari satu variabel dengan yang lain. Misalnya, jika Anda memiliki dua variabel, seperti kepadatan populasi (urban, suburban, rural) dan state (Washington, Oregon, California), mungkin ada informasi yang berguna dalam fitur yang dibentuk oleh produk Cartesian dari dua variabel ini menghasilkan fitur (Urban_Washington, Suburban_Washington, rural_ Washington, Urban_Oregon, Suburban_Oregon, Rural_oregon, Urban_California, Suburban_California, Rural_California).

  • Transformasi non-linear seperti binning variabel numerik ke kategori. Dalam banyak kasus, hubungan antara fitur numerik dan target tidak linear (nilai fitur tidak meningkat atau menurun secara monoton dengan target). Dalam kasus seperti itu, mungkin berguna untuk bin fitur numerik ke dalam fitur kategoris yang mewakili rentang yang berbeda dari fitur numerik. Setiap fitur kategoris (bin) kemudian dapat dimodelkan sebagai memiliki hubungan linier sendiri dengan target. Misalnya, katakanlah Anda tahu bahwa usia fitur numerik terus menerus tidak berkorelasi linear dengan kemungkinan untuk membeli buku. Anda dapat bin usia ke fitur kategoris yang mungkin dapat menangkap hubungan dengan target lebih akurat. Jumlah optimum sampah untuk variabel numerik tergantung pada karakteristik variabel dan hubungannya dengan target, dan ini paling baik ditentukan melalui eksperimen. Amazon IL menyarankan nomor bin optimal untuk fitur numerik berdasarkan statistik data dalam resep yang disarankan. Lihat Panduan Pengembang untuk rincian tentangresep yang disarankan.

  • Fitur khusus domain (misalnya, Anda memiliki panjang, lebar, dan tinggi sebagai variabel terpisah; Anda dapat membuat fitur volume baru untuk menjadi produk dari ketiga variabel ini).

  • Fitur variabel-spesifik. Beberapa tipe variabel seperti fitur teks, fitur yang menangkap struktur halaman web, atau struktur kalimat memiliki cara pemrosesan generik yang membantu mengekstrak struktur dan konteks. Misalnya, membentukgram ndari teks “rubah melompati pagar” dapat direpresentasikan denganunigram: rubah, melompat, lebih, pagar ataubigram: rubah, rubah melompat, melompati, di atas, pagar.

Termasuk fitur yang lebih relevan membantu meningkatkan daya prediksi. Jelas, tidak selalu mungkin untuk mengetahui fitur dengan “sinyal” atau pengaruh prediktif terlebih dahulu. Jadi ada baiknya untuk memasukkan semua fitur yang berpotensi terkait dengan label target dan membiarkan algoritma pelatihan model memilih fitur dengan korelasi terkuat. Di Amazon ML-nya, pemrosesan fitur dapat ditentukan dalam resep saat membuat model. Lihat Panduan Pengembang untuk daftar prosesor fitur yang tersedia.