Hiperparameter Wawasan IP

Dalam CreateTransformJobpermintaan, Anda menentukan algoritma pelatihan. Anda juga dapat menentukan hyperparameter khusus algoritme sebagai peta. string-to-string Tabel berikut mencantumkan hyperparameters untuk algoritma Amazon SageMaker IP Insights.

Nama Parameter	Deskripsi
`num_entity_vectors`	Jumlah representasi vektor entitas (vektor penyisipan entitas) untuk dilatih. Setiap entitas dalam set pelatihan secara acak ditugaskan ke salah satu vektor ini menggunakan fungsi hash. Karena tabrakan hash, dimungkinkan untuk memiliki beberapa entitas yang ditetapkan ke vektor yang sama. Ini akan menyebabkan vektor yang sama mewakili beberapa entitas. Ini umumnya memiliki efek yang dapat diabaikan pada kinerja model, selama tingkat tabrakan tidak terlalu parah. Untuk menjaga tingkat tabrakan tetap rendah, tetapkan nilai ini setinggi mungkin. Namun, ukuran model, dan, oleh karena itu, kebutuhan memori, untuk pelatihan dan inferensi, berskala linier dengan hiperparameter ini. Kami menyarankan Anda menetapkan nilai ini menjadi dua kali jumlah pengidentifikasi entitas unik. Diperlukan Nilai yang valid: 1 ≤ bilangan bulat positif ≤ 250.000.000
`vector_dim`	Ukuran vektor embedding untuk mewakili entitas dan alamat IP. Semakin besar nilainya, semakin banyak informasi yang dapat dikodekan menggunakan representasi ini. Dalam praktiknya, ukuran model menskalakan secara linier dengan parameter ini dan membatasi seberapa besar dimensinya. Selain itu, menggunakan representasi vektor yang terlalu besar dapat menyebabkan model menjadi overfit, terutama untuk kumpulan data pelatihan kecil. Overfitting terjadi ketika model tidak mempelajari pola apa pun dalam data tetapi secara efektif menghafal data pelatihan dan, oleh karena itu, tidak dapat menggeneralisasi dengan baik dan berkinerja buruk selama inferensi. Nilai yang disarankan adalah 128. Diperlukan Nilai yang valid: 4 ≤ bilangan bulat positif ≤ 4096
`batch_metrics_publish_interval`	Interval (setiap X batch) di mana fungsi Apache MXNet Speedometer mencetak kecepatan pelatihan jaringan (sampel/detik). Opsional Nilai yang valid: bilangan bulat positif ≥ 1 Nilai default: 1.000
`epochs`	Jumlah lintasan atas data pelatihan. Nilai optimal tergantung pada ukuran data dan tingkat pembelajaran Anda. Nilai tipikal berkisar dari 5 hingga 100. Opsional Nilai yang valid: bilangan bulat positif ≥ 1 Nilai default: 10
`learning_rate`	Tingkat pembelajaran untuk pengoptimal. IP Insights menggunakan pengoptimal gradient-descent-based Adam. Laju pembelajaran secara efektif mengontrol ukuran langkah untuk memperbarui parameter model pada setiap iterasi. Tingkat pembelajaran yang terlalu besar dapat menyebabkan model menyimpang karena pelatihan cenderung melampaui minimum. Di sisi lain, tingkat pembelajaran yang terlalu kecil memperlambat konvergensi. Nilai tipikal berkisar dari 1e-4 hingga 1e-1. Opsional Nilai yang valid: 1e-6 ≤ float ≤ 10.0 Nilai default: 0,001
`mini_batch_size`	Jumlah contoh di setiap batch mini. Prosedur pelatihan memproses data dalam batch mini. Nilai optimal tergantung pada jumlah pengidentifikasi akun unik dalam kumpulan data. Secara umum, semakin besar`mini_batch_size`, semakin cepat pelatihan dan semakin besar jumlah shuffled-negative-sample kombinasi yang mungkin. Namun, dengan yang besar`mini_batch_size`, pelatihan lebih cenderung menyatu dengan minimum lokal yang buruk dan berkinerja relatif lebih buruk untuk inferensi. Opsional Nilai yang valid: 1 ≤ bilangan bulat positif ≤ 500000 Nilai default: 10.000
`num_ip_encoder_layers`	Jumlah lapisan yang terhubung sepenuhnya digunakan untuk menyandikan penyematan alamat IP. Semakin besar jumlah lapisan, semakin besar kapasitas model untuk menangkap pola di antara alamat IP. Namun, menggunakan sejumlah besar lapisan meningkatkan kemungkinan overfitting. Opsional Nilai yang valid: 0 ≤ bilangan bulat positif ≤ 100 Nilai default: 1
`random_negative_sampling_rate`	Jumlah sampel negatif acak, R, untuk menghasilkan per contoh input. Prosedur pelatihan bergantung pada sampel negatif untuk mencegah representasi vektor model runtuh ke satu titik. Pengambilan sampel negatif acak menghasilkan R alamat IP acak untuk setiap akun input dalam batch mini. Jumlah `random_negative_sampling_rate` (R) dan `shuffled_negative_sampling_rate` (S) harus dalam interval: 1 ≤ R + S ≤ 500. Opsional Nilai yang valid: 0 ≤ bilangan bulat positif ≤ 500 Nilai default: 1
`shuffled_negative_sampling_rate`	Jumlah sampel negatif yang diacak, S, untuk menghasilkan per contoh input. Dalam beberapa kasus, ada baiknya menggunakan sampel negatif yang lebih realistis yang dipilih secara acak dari data pelatihan itu sendiri. Pengambilan sampel negatif semacam ini dicapai dengan mengacak data dalam batch mini. Pengambilan sampel negatif yang diacak menghasilkan alamat IP negatif S dengan mengacak alamat IP dan pasangan akun dalam batch mini. Jumlah `random_negative_sampling_rate` (R) dan `shuffled_negative_sampling_rate` (S) harus dalam interval: 1 ≤ R + S ≤ 500. Opsional Nilai yang valid: 0 ≤ bilangan bulat positif ≤ 500 Nilai default: 1
`weight_decay`	Koefisien peluruhan berat. Parameter ini menambahkan faktor regularisasi L2 yang diperlukan untuk mencegah model agar tidak terlalu pas dengan data pelatihan. Opsional Nilai yang valid: 0.0 ≤ float ≤ 10.0 Nilai default: 0,00001

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Cara Kerjanya

Penyetelan Model