Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Tabel berikut berisi subset hiperparameter yang diperlukan atau paling umum digunakan untuk algoritma Amazon SageMaker AI LightGBM. Pengguna mengatur parameter ini untuk memfasilitasi estimasi parameter model dari data. Algoritma SageMaker AI LightGBM adalah implementasi dari paket LightGBM open-source.
catatan
Hyperparameter default didasarkan pada contoh kumpulan data di file. Notebook sampel LightGBM
Secara default, algoritma SageMaker AI LightGBM secara otomatis memilih metrik evaluasi dan fungsi objektif berdasarkan jenis masalah klasifikasi. Algoritma LightGBM mendeteksi jenis masalah klasifikasi berdasarkan jumlah label dalam data Anda. Untuk masalah regresi, metrik evaluasi adalah kesalahan kuadrat rata-rata akar dan fungsi tujuannya adalah kerugian L2. Untuk masalah klasifikasi biner, metrik evaluasi dan fungsi objektif keduanya adalah entropi silang biner. Untuk masalah klasifikasi multikelas, metrik evaluasi adalah entropi silang multikelas dan fungsi tujuannya adalah softmax. Anda dapat menggunakan metric
hyperparameter untuk mengubah metrik evaluasi default. Lihat tabel berikut untuk informasi selengkapnya tentang hyperparameters LightGBM, termasuk deskripsi, nilai valid, dan nilai default.
Nama Parameter | Deskripsi |
---|---|
num_boost_round |
Jumlah maksimum peningkatan iterasi. Catatan: Secara internal, LightGBM membangun Nilai yang valid: bilangan bulat, rentang: Bilangan bulat positif. Nilai default: |
early_stopping_rounds |
Pelatihan akan berhenti jika satu metrik dari satu titik data validasi tidak membaik di Nilai yang valid: bilangan bulat. Nilai default: |
metric |
Metrik evaluasi untuk data validasi. Jika
Nilai yang valid: string, salah satu dari berikut ini: ( Nilai default: |
learning_rate |
Tingkat di mana bobot model diperbarui setelah mengerjakan setiap batch contoh pelatihan. Nilai yang valid: float, range: ( Nilai default: |
num_leaves |
Jumlah maksimum daun dalam satu pohon. Nilai yang valid: integer, range: ( Nilai default: |
feature_fraction |
Subset fitur yang akan dipilih pada setiap iterasi (pohon). Harus kurang dari 1,0. Nilai yang valid: float, range: ( Nilai default: |
bagging_fraction |
Subset fitur yang mirip dengan Nilai yang valid: float, range: ( Nilai default: |
bagging_freq |
Frekuensi untuk melakukan bagging. Pada setiap Nilai yang valid: bilangan bulat, rentang: Bilangan bulat non-negatif. Nilai default: |
max_depth |
Kedalaman maksimum untuk model pohon. Ini digunakan untuk menangani overfitting ketika jumlah data kecil. Jika Nilai yang valid: bilangan bulat. Nilai default: |
min_data_in_leaf |
Jumlah minimum data dalam satu daun. Dapat digunakan untuk menangani overfitting. Nilai yang valid: bilangan bulat, rentang: Bilangan bulat non-negatif. Nilai default: |
max_delta_step |
Digunakan untuk membatasi output maksimal daun pohon. Jika Nilai yang valid: float. Nilai default: |
lambda_l1 |
Regularisasi L1. Nilai yang valid: float, range: Float non-negatif. Nilai default: |
lambda_l2 |
Regularisasi L2. Nilai yang valid: float, range: Float non-negatif. Nilai default: |
boosting |
Jenis penguat Nilai yang valid: string, salah satu dari berikut ini: ( Nilai default: |
min_gain_to_split |
Keuntungan minimum untuk melakukan split. Dapat digunakan untuk mempercepat pelatihan. Nilai yang valid: integer, float: Float non-negatif. Nilai default: |
scale_pos_weight |
Berat label dengan kelas positif. Digunakan hanya untuk tugas klasifikasi biner. Nilai yang valid: float, range: Positive float. Nilai default: |
tree_learner |
Jenis pembelajar pohon. Nilai yang valid: string, salah satu dari berikut ini: ( Nilai default: |
feature_fraction_bynode |
Memilih subset fitur acak pada setiap node pohon. Misalnya, jika Nilai yang valid: integer, range: ( Nilai default: |
is_unbalance |
Setel ke Nilai yang valid: string, baik: ( Nilai default: |
max_bin |
Jumlah maksimum nampan yang digunakan untuk memasukkan nilai fitur. Sejumlah kecil tempat sampah dapat mengurangi akurasi pelatihan, tetapi dapat meningkatkan kinerja umum. Dapat digunakan untuk menangani overfitting. Nilai yang valid: bilangan bulat, rentang: (1, ∞). Nilai default: |
tweedie_variance_power |
Mengontrol varians distribusi Tweedie. Atur ini lebih dekat Nilai yang valid: float, range: [ Nilai default: |
num_threads |
Jumlah thread paralel yang digunakan untuk menjalankan LightGBM. Nilai 0 berarti jumlah default thread di OpenMP. Nilai yang valid: bilangan bulat, rentang: Bilangan bulat non-negatif. Nilai default: |
verbosity |
Verbositas pesan cetak. Jika Nilai yang valid: bilangan bulat. Nilai default: |