Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Hiperparameter LightGBM

Mode fokus
Hiperparameter LightGBM - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tabel berikut berisi subset hiperparameter yang diperlukan atau paling umum digunakan untuk algoritma Amazon SageMaker AI LightGBM. Pengguna mengatur parameter ini untuk memfasilitasi estimasi parameter model dari data. Algoritma SageMaker AI LightGBM adalah implementasi dari paket LightGBM open-source.

catatan

Hyperparameter default didasarkan pada contoh kumpulan data di file. Notebook sampel LightGBM

Secara default, algoritma SageMaker AI LightGBM secara otomatis memilih metrik evaluasi dan fungsi objektif berdasarkan jenis masalah klasifikasi. Algoritma LightGBM mendeteksi jenis masalah klasifikasi berdasarkan jumlah label dalam data Anda. Untuk masalah regresi, metrik evaluasi adalah kesalahan kuadrat rata-rata akar dan fungsi tujuannya adalah kerugian L2. Untuk masalah klasifikasi biner, metrik evaluasi dan fungsi objektif keduanya adalah entropi silang biner. Untuk masalah klasifikasi multikelas, metrik evaluasi adalah entropi silang multikelas dan fungsi tujuannya adalah softmax. Anda dapat menggunakan metric hyperparameter untuk mengubah metrik evaluasi default. Lihat tabel berikut untuk informasi selengkapnya tentang hyperparameters LightGBM, termasuk deskripsi, nilai valid, dan nilai default.

Nama Parameter Deskripsi
num_boost_round

Jumlah maksimum peningkatan iterasi. Catatan: Secara internal, LightGBM membangun num_class * num_boost_round pohon untuk masalah klasifikasi multi-kelas.

Nilai yang valid: bilangan bulat, rentang: Bilangan bulat positif.

Nilai default:100.

early_stopping_rounds

Pelatihan akan berhenti jika satu metrik dari satu titik data validasi tidak membaik di early_stopping_rounds babak terakhir. Jika early_stopping_rounds kurang dari atau sama dengan nol, hyperparameter ini diabaikan.

Nilai yang valid: bilangan bulat.

Nilai default:10.

metric

Metrik evaluasi untuk data validasi. Jika metric diatur ke "auto" nilai default, maka algoritme secara otomatis memilih metrik evaluasi berdasarkan jenis masalah klasifikasi:

  • rmseuntuk regresi

  • binary_loglossuntuk klasifikasi biner

  • multi_loglossuntuk klasifikasi multi-kelas

Nilai yang valid: string, salah satu dari berikut ini: ("auto""rmse""l1","l2","huber","fair","binary_logloss","binary_error","auc","average_precision","multi_logloss","multi_error","auc_mu", atau"cross_entropy").

Nilai default:"auto".

learning_rate

Tingkat di mana bobot model diperbarui setelah mengerjakan setiap batch contoh pelatihan.

Nilai yang valid: float, range: (0.0,1.0).

Nilai default:0.1.

num_leaves

Jumlah maksimum daun dalam satu pohon.

Nilai yang valid: integer, range: (1,131072).

Nilai default:64.

feature_fraction

Subset fitur yang akan dipilih pada setiap iterasi (pohon). Harus kurang dari 1,0.

Nilai yang valid: float, range: (0.0,1.0).

Nilai default:0.9.

bagging_fraction

Subset fitur yang mirip denganfeature_fraction, tetapi bagging_fraction secara acak memilih bagian dari data tanpa resampling.

Nilai yang valid: float, range: (0.0,1.0].

Nilai default:0.9.

bagging_freq

Frekuensi untuk melakukan bagging. Pada setiap bagging_freq iterasi, LightGBM secara acak memilih persentase data yang akan digunakan untuk iterasi berikutnya. bagging_freq Persentase ini ditentukan oleh bagging_fraction hyperparameter. Jika bagging_freq nol, maka bagging dinonaktifkan.

Nilai yang valid: bilangan bulat, rentang: Bilangan bulat non-negatif.

Nilai default:1.

max_depth

Kedalaman maksimum untuk model pohon. Ini digunakan untuk menangani overfitting ketika jumlah data kecil. Jika max_depth kurang dari atau sama dengan nol, ini berarti tidak ada batasan untuk kedalaman maksimum.

Nilai yang valid: bilangan bulat.

Nilai default:6.

min_data_in_leaf

Jumlah minimum data dalam satu daun. Dapat digunakan untuk menangani overfitting.

Nilai yang valid: bilangan bulat, rentang: Bilangan bulat non-negatif.

Nilai default:3.

max_delta_step

Digunakan untuk membatasi output maksimal daun pohon. Jika max_delta_step kurang dari atau sama dengan 0, maka tidak ada kendala. Output maksimal akhir daun adalahlearning_rate * max_delta_step.

Nilai yang valid: float.

Nilai default:0.0.

lambda_l1

Regularisasi L1.

Nilai yang valid: float, range: Float non-negatif.

Nilai default:0.0.

lambda_l2

Regularisasi L2.

Nilai yang valid: float, range: Float non-negatif.

Nilai default:0.0.

boosting

Jenis penguat

Nilai yang valid: string, salah satu dari berikut ini: ("gbdt","rf","dart", atau"goss").

Nilai default:"gbdt".

min_gain_to_split

Keuntungan minimum untuk melakukan split. Dapat digunakan untuk mempercepat pelatihan.

Nilai yang valid: integer, float: Float non-negatif.

Nilai default:0.0.

scale_pos_weight

Berat label dengan kelas positif. Digunakan hanya untuk tugas klasifikasi biner. scale_pos_weighttidak dapat digunakan jika is_unbalance diatur ke"True".

Nilai yang valid: float, range: Positive float.

Nilai default:1.0.

tree_learner

Jenis pembelajar pohon.

Nilai yang valid: string, salah satu dari berikut ini: ("serial","feature","data", atau"voting").

Nilai default:"serial".

feature_fraction_bynode

Memilih subset fitur acak pada setiap node pohon. Misalnya, jika feature_fraction_bynode ya0.8, maka 80% fitur dipilih. Dapat digunakan untuk menangani overfitting.

Nilai yang valid: integer, range: (0.0,1.0].

Nilai default:1.0.

is_unbalance

Setel ke "True" jika data pelatihan tidak seimbang. Digunakan hanya untuk tugas klasifikasi biner. is_unbalancetidak dapat digunakan denganscale_pos_weight.

Nilai yang valid: string, baik: ("True"atau"False").

Nilai default:"False".

max_bin

Jumlah maksimum nampan yang digunakan untuk memasukkan nilai fitur. Sejumlah kecil tempat sampah dapat mengurangi akurasi pelatihan, tetapi dapat meningkatkan kinerja umum. Dapat digunakan untuk menangani overfitting.

Nilai yang valid: bilangan bulat, rentang: (1, ∞).

Nilai default:255.

tweedie_variance_power

Mengontrol varians distribusi Tweedie. Atur ini lebih dekat 2.0 untuk bergeser ke arah distribusi gamma. Atur ini lebih dekat 1.0 untuk beralih ke distribusi Poisson. Digunakan hanya untuk tugas-tugas regresi.

Nilai yang valid: float, range: [1.0,2.0).

Nilai default:1.5.

num_threads

Jumlah thread paralel yang digunakan untuk menjalankan LightGBM. Nilai 0 berarti jumlah default thread di OpenMP.

Nilai yang valid: bilangan bulat, rentang: Bilangan bulat non-negatif.

Nilai default:0.

verbosity

Verbositas pesan cetak. Jika verbosity kurang dari0, maka pesan cetak hanya menunjukkan kesalahan fatal. Jika verbosity diatur ke0, maka pesan cetak termasuk kesalahan dan peringatan. Jika verbosity ya1, maka cetak pesan menampilkan informasi lebih lanjut. verbosityLebih besar dari 1 menunjukkan sebagian besar informasi dalam pesan cetak dan dapat digunakan untuk debugging.

Nilai yang valid: bilangan bulat.

Nilai default:1.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.