Hiperparameter LightGBM

Tabel berikut berisi subset hiperparameter yang diperlukan atau paling umum digunakan untuk algoritma Amazon SageMaker AI LightGBM. Pengguna mengatur parameter ini untuk memfasilitasi estimasi parameter model dari data. Algoritma SageMaker AI LightGBM adalah implementasi dari paket LightGBM open-source.

catatan

Hyperparameter default didasarkan pada contoh kumpulan data di file. Notebook sampel LightGBM

Secara default, algoritma SageMaker AI LightGBM secara otomatis memilih metrik evaluasi dan fungsi objektif berdasarkan jenis masalah klasifikasi. Algoritma LightGBM mendeteksi jenis masalah klasifikasi berdasarkan jumlah label dalam data Anda. Untuk masalah regresi, metrik evaluasi adalah kesalahan kuadrat rata-rata akar dan fungsi tujuannya adalah kerugian L2. Untuk masalah klasifikasi biner, metrik evaluasi dan fungsi objektif keduanya adalah entropi silang biner. Untuk masalah klasifikasi multikelas, metrik evaluasi adalah entropi silang multikelas dan fungsi tujuannya adalah softmax. Anda dapat menggunakan metric hyperparameter untuk mengubah metrik evaluasi default. Lihat tabel berikut untuk informasi selengkapnya tentang hyperparameters LightGBM, termasuk deskripsi, nilai valid, dan nilai default.

Nama Parameter	Deskripsi
`num_boost_round`	Jumlah maksimum peningkatan iterasi. Catatan: Secara internal, LightGBM membangun `num_class * num_boost_round` pohon untuk masalah klasifikasi multi-kelas. Nilai yang valid: bilangan bulat, rentang: Bilangan bulat positif. Nilai default:`100`.
`early_stopping_rounds`	Pelatihan akan berhenti jika satu metrik dari satu titik data validasi tidak membaik di `early_stopping_rounds` babak terakhir. Jika `early_stopping_rounds` kurang dari atau sama dengan nol, hyperparameter ini diabaikan. Nilai yang valid: bilangan bulat. Nilai default:`10`.
`metric`	Metrik evaluasi untuk data validasi. Jika `metric` diatur ke `"auto"` nilai default, maka algoritme secara otomatis memilih metrik evaluasi berdasarkan jenis masalah klasifikasi: `rmse`untuk regresi `binary_logloss`untuk klasifikasi biner `multi_logloss`untuk klasifikasi multi-kelas Nilai yang valid: string, salah satu dari berikut ini: (`"auto""rmse""l1"`,`"l2"`,`"huber"`,`"fair"`,`"binary_logloss"`,`"binary_error"`,`"auc"`,`"average_precision"`,`"multi_logloss"`,`"multi_error"`,`"auc_mu"`, atau`"cross_entropy"`). Nilai default:`"auto"`.
`learning_rate`	Tingkat di mana bobot model diperbarui setelah mengerjakan setiap batch contoh pelatihan. Nilai yang valid: float, range: (`0.0`,`1.0`). Nilai default:`0.1`.
`num_leaves`	Jumlah maksimum daun dalam satu pohon. Nilai yang valid: integer, range: (`1`,`131072`). Nilai default:`64`.
`feature_fraction`	Subset fitur yang akan dipilih pada setiap iterasi (pohon). Harus kurang dari 1,0. Nilai yang valid: float, range: (`0.0`,`1.0`). Nilai default:`0.9`.
`bagging_fraction`	Subset fitur yang mirip dengan`feature_fraction`, tetapi `bagging_fraction` secara acak memilih bagian dari data tanpa resampling. Nilai yang valid: float, range: (`0.0`,`1.0`]. Nilai default:`0.9`.
`bagging_freq`	Frekuensi untuk melakukan bagging. Pada setiap `bagging_freq` iterasi, LightGBM secara acak memilih persentase data yang akan digunakan untuk iterasi berikutnya. `bagging_freq` Persentase ini ditentukan oleh `bagging_fraction` hyperparameter. Jika `bagging_freq` nol, maka bagging dinonaktifkan. Nilai yang valid: bilangan bulat, rentang: Bilangan bulat non-negatif. Nilai default:`1`.
`max_depth`	Kedalaman maksimum untuk model pohon. Ini digunakan untuk menangani overfitting ketika jumlah data kecil. Jika `max_depth` kurang dari atau sama dengan nol, ini berarti tidak ada batasan untuk kedalaman maksimum. Nilai yang valid: bilangan bulat. Nilai default:`6`.
`min_data_in_leaf`	Jumlah minimum data dalam satu daun. Dapat digunakan untuk menangani overfitting. Nilai yang valid: bilangan bulat, rentang: Bilangan bulat non-negatif. Nilai default:`3`.
`max_delta_step`	Digunakan untuk membatasi output maksimal daun pohon. Jika `max_delta_step` kurang dari atau sama dengan 0, maka tidak ada kendala. Output maksimal akhir daun adalah`learning_rate * max_delta_step`. Nilai yang valid: float. Nilai default:`0.0`.
`lambda_l1`	Regularisasi L1. Nilai yang valid: float, range: Float non-negatif. Nilai default:`0.0`.
`lambda_l2`	Regularisasi L2. Nilai yang valid: float, range: Float non-negatif. Nilai default:`0.0`.
`boosting`	Jenis penguat Nilai yang valid: string, salah satu dari berikut ini: (`"gbdt"`,`"rf"`,`"dart"`, atau`"goss"`). Nilai default:`"gbdt"`.
`min_gain_to_split`	Keuntungan minimum untuk melakukan split. Dapat digunakan untuk mempercepat pelatihan. Nilai yang valid: integer, float: Float non-negatif. Nilai default:`0.0`.
`scale_pos_weight`	Berat label dengan kelas positif. Digunakan hanya untuk tugas klasifikasi biner. `scale_pos_weight`tidak dapat digunakan jika `is_unbalance` diatur ke`"True"`. Nilai yang valid: float, range: Positive float. Nilai default:`1.0`.
`tree_learner`	Jenis pembelajar pohon. Nilai yang valid: string, salah satu dari berikut ini: (`"serial"`,`"feature"`,`"data"`, atau`"voting"`). Nilai default:`"serial"`.
`feature_fraction_bynode`	Memilih subset fitur acak pada setiap node pohon. Misalnya, jika `feature_fraction_bynode` ya`0.8`, maka 80% fitur dipilih. Dapat digunakan untuk menangani overfitting. Nilai yang valid: integer, range: (`0.0`,`1.0`]. Nilai default:`1.0`.
`is_unbalance`	Setel ke `"True"` jika data pelatihan tidak seimbang. Digunakan hanya untuk tugas klasifikasi biner. `is_unbalance`tidak dapat digunakan dengan`scale_pos_weight`. Nilai yang valid: string, baik: (`"True"`atau`"False"`). Nilai default:`"False"`.
`max_bin`	Jumlah maksimum nampan yang digunakan untuk memasukkan nilai fitur. Sejumlah kecil tempat sampah dapat mengurangi akurasi pelatihan, tetapi dapat meningkatkan kinerja umum. Dapat digunakan untuk menangani overfitting. Nilai yang valid: bilangan bulat, rentang: (1, ∞). Nilai default:`255`.
`tweedie_variance_power`	Mengontrol varians distribusi Tweedie. Atur ini lebih dekat `2.0` untuk bergeser ke arah distribusi gamma. Atur ini lebih dekat `1.0` untuk beralih ke distribusi Poisson. Digunakan hanya untuk tugas-tugas regresi. Nilai yang valid: float, range: [`1.0`,`2.0`). Nilai default:`1.5`.
`num_threads`	Jumlah thread paralel yang digunakan untuk menjalankan LightGBM. Nilai 0 berarti jumlah default thread di OpenMP. Nilai yang valid: bilangan bulat, rentang: Bilangan bulat non-negatif. Nilai default:`0`.
`verbosity`	Verbositas pesan cetak. Jika `verbosity` kurang dari`0`, maka pesan cetak hanya menunjukkan kesalahan fatal. Jika `verbosity` diatur ke`0`, maka pesan cetak termasuk kesalahan dan peringatan. Jika `verbosity` ya`1`, maka cetak pesan menampilkan informasi lebih lanjut. `verbosity`Lebih besar dari `1` menunjukkan sebagian besar informasi dalam pesan cetak dan dapat digunakan untuk debugging. Nilai yang valid: bilangan bulat. Nilai default:`1`.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Cara Kerjanya

Penyetelan Model