Menyetel Model LDA - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menyetel Model LDA

Penyetelan model otomatis, juga dikenal sebagai tuning hyperparameter, menemukan versi terbaik dari model dengan menjalankan banyak pekerjaan yang menguji berbagai hiperparameter pada kumpulan data Anda. Anda memilih hyperparameters yang dapat disetel, rentang nilai untuk masing-masing, dan metrik objektif. Anda memilih metrik objektif dari metrik yang dihitung algoritme. Penyetelan model otomatis mencari hiperparameter yang dipilih untuk menemukan kombinasi nilai yang menghasilkan model yang mengoptimalkan metrik objektif.

LDA adalah algoritma pemodelan topik tanpa pengawasan yang mencoba menggambarkan serangkaian pengamatan (dokumen) sebagai campuran dari berbagai kategori (topik). Metrik “kemungkinan log per kata” (PWLL) mengukur kemungkinan bahwa serangkaian topik yang dipelajari (model LDA) secara akurat menggambarkan kumpulan data dokumen uji. Nilai PWLL yang lebih besar menunjukkan bahwa data uji lebih mungkin dijelaskan oleh model LDA.

Untuk informasi lebih lanjut tentang penyetelan model, lihatPenyetelan model otomatis dengan SageMaker.

Metrik yang Dihitung oleh Algoritma LDA

Algoritma LDA melaporkan satu metrik selama pelatihan:test:pwll. Saat menyetel model, pilih metrik ini sebagai metrik objektif.

Nama Metrik Deskripsi Arah Optimasi
test:pwll

Kemungkinan log per kata pada kumpulan data pengujian. Kemungkinan bahwa kumpulan data pengujian dijelaskan secara akurat oleh model LDA yang dipelajari.

Maksimalkan

Hiperparameter LDA yang dapat disetel

Anda dapat menyetel hyperparameters berikut untuk algoritma LDA. Kedua hiperparameter, alpha0 dannum_topics, dapat mempengaruhi metrik objektif LDA ()test:pwll. Jika Anda belum mengetahui nilai optimal untuk hiperparameter ini, yang memaksimalkan kemungkinan log per kata dan menghasilkan model LDA yang akurat, penyetelan model otomatis dapat membantu menemukannya.

Nama Parameter Jenis Parameter Rentang yang Direkomendasikan
alpha0

ContinuousParameterRanges

MinValue: 0,1, MaxValue: 10

num_topics

IntegerParameterRanges

MinValue: 1, MaxValue: 150