Menyetel Model K-Means - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menyetel Model K-Means

Penyetelan model otomatis, juga dikenal sebagai tuning hyperparameter, menemukan versi terbaik dari model dengan menjalankan banyak pekerjaan yang menguji berbagai hiperparameter pada kumpulan data Anda. Anda memilih hyperparameters yang dapat disetel, rentang nilai untuk masing-masing, dan metrik objektif. Anda memilih metrik objektif dari metrik yang dihitung algoritme. Penyetelan model otomatis mencari hiperparameter yang dipilih untuk menemukan kombinasi nilai yang menghasilkan model yang mengoptimalkan metrik objektif.

Algoritma Amazon SageMaker k-means adalah algoritma tanpa pengawasan yang mengelompokkan data ke dalam cluster yang anggotanya semirip mungkin. Karena tidak diawasi, ia tidak menggunakan kumpulan data validasi yang dapat dioptimalkan oleh hiperparameter. Tetapi dibutuhkan kumpulan data pengujian dan memancarkan metrik yang bergantung pada jarak kuadrat antara titik data dan centroid cluster terakhir di akhir setiap latihan. Untuk menemukan model yang melaporkan cluster terketat pada kumpulan data pengujian, Anda dapat menggunakan pekerjaan penyetelan hiperparameter. Cluster mengoptimalkan kesamaan anggotanya.

Untuk informasi lebih lanjut tentang penyetelan model, lihatPenyetelan model otomatis dengan SageMaker.

Metrik yang Dihitung oleh Algoritma K-Means

Algoritma k-means menghitung metrik berikut selama pelatihan. Saat menyetel model, pilih salah satu metrik ini sebagai metrik objektif.

Nama Metrik Deskripsi Arah Optimasi
test:msd

Jarak kuadrat rata-rata antara setiap catatan dalam set uji dan pusat terdekat model.

Minimalkan

test:ssd

Jumlah jarak kuadrat antara setiap catatan dalam set uji dan pusat terdekat model.

Minimalkan

Hiperparameter K-Means yang Dapat Disetel

Setel model Amazon SageMaker k-means dengan hyperparameter berikut. Hiperparameter yang memiliki dampak terbesar pada metrik objektif k-means adalah:mini_batch_size,, extra_center_factor dan. init_method Menyetel hyperparameter epochs umumnya menghasilkan perbaikan kecil.

Nama Parameter Jenis Parameter Rentang yang Direkomendasikan
epochs

IntegerParameterRentang

MinValue: 1 MaxValue ,:10

extra_center_factor

IntegerParameterRentang

MinValue: 4 MaxValue ,:10

init_method

CategoricalParameterRentang

['kmeans++', 'acak']

mini_batch_size

IntegerParameterRentang

MinValue: 3000 MaxValue ,:15000