Hiperparameter Wawasan IP - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Hiperparameter Wawasan IP

Dalam CreateTransformJobpermintaan, Anda menentukan algoritma pelatihan. Anda juga dapat menentukan hyperparameter khusus algoritme sebagai peta. string-to-string Tabel berikut mencantumkan hyperparameters untuk algoritma Amazon SageMaker IP Insights.

Nama Parameter Deskripsi
num_entity_vectors

Jumlah representasi vektor entitas (vektor penyisipan entitas) untuk dilatih. Setiap entitas dalam set pelatihan secara acak ditugaskan ke salah satu vektor ini menggunakan fungsi hash. Karena tabrakan hash, dimungkinkan untuk memiliki beberapa entitas yang ditetapkan ke vektor yang sama. Ini akan menyebabkan vektor yang sama mewakili beberapa entitas. Ini umumnya memiliki efek yang dapat diabaikan pada kinerja model, selama tingkat tabrakan tidak terlalu parah. Untuk menjaga tingkat tabrakan tetap rendah, tetapkan nilai ini setinggi mungkin. Namun, ukuran model, dan, oleh karena itu, kebutuhan memori, untuk pelatihan dan inferensi, berskala linier dengan hiperparameter ini. Kami menyarankan Anda menetapkan nilai ini menjadi dua kali jumlah pengidentifikasi entitas unik.

Diperlukan

Nilai yang valid: 1 ≤ bilangan bulat positif ≤ 250.000.000

vector_dim

Ukuran vektor embedding untuk mewakili entitas dan alamat IP. Semakin besar nilainya, semakin banyak informasi yang dapat dikodekan menggunakan representasi ini. Dalam praktiknya, ukuran model menskalakan secara linier dengan parameter ini dan membatasi seberapa besar dimensinya. Selain itu, menggunakan representasi vektor yang terlalu besar dapat menyebabkan model menjadi overfit, terutama untuk kumpulan data pelatihan kecil. Overfitting terjadi ketika model tidak mempelajari pola apa pun dalam data tetapi secara efektif menghafal data pelatihan dan, oleh karena itu, tidak dapat menggeneralisasi dengan baik dan berkinerja buruk selama inferensi. Nilai yang disarankan adalah 128.

Diperlukan

Nilai yang valid: 4 ≤ bilangan bulat positif ≤ 4096

batch_metrics_publish_interval

Interval (setiap X batch) di mana fungsi Apache MXNet Speedometer mencetak kecepatan pelatihan jaringan (sampel/detik).

Opsional

Nilai yang valid: bilangan bulat positif ≥ 1

Nilai default: 1.000

epochs

Jumlah lintasan atas data pelatihan. Nilai optimal tergantung pada ukuran data dan tingkat pembelajaran Anda. Nilai tipikal berkisar dari 5 hingga 100.

Opsional

Nilai yang valid: bilangan bulat positif ≥ 1

Nilai default: 10

learning_rate

Tingkat pembelajaran untuk pengoptimal. IP Insights menggunakan pengoptimal gradient-descent-based Adam. Laju pembelajaran secara efektif mengontrol ukuran langkah untuk memperbarui parameter model pada setiap iterasi. Tingkat pembelajaran yang terlalu besar dapat menyebabkan model menyimpang karena pelatihan cenderung melampaui minimum. Di sisi lain, tingkat pembelajaran yang terlalu kecil memperlambat konvergensi. Nilai tipikal berkisar dari 1e-4 hingga 1e-1.

Opsional

Nilai yang valid: 1e-6 ≤ float ≤ 10.0

Nilai default: 0,001

mini_batch_size

Jumlah contoh di setiap batch mini. Prosedur pelatihan memproses data dalam batch mini. Nilai optimal tergantung pada jumlah pengidentifikasi akun unik dalam kumpulan data. Secara umum, semakin besarmini_batch_size, semakin cepat pelatihan dan semakin besar jumlah shuffled-negative-sample kombinasi yang mungkin. Namun, dengan yang besarmini_batch_size, pelatihan lebih cenderung menyatu dengan minimum lokal yang buruk dan berkinerja relatif lebih buruk untuk inferensi.

Opsional

Nilai yang valid: 1 ≤ bilangan bulat positif ≤ 500000

Nilai default: 10.000

num_ip_encoder_layers

Jumlah lapisan yang terhubung sepenuhnya digunakan untuk menyandikan penyematan alamat IP. Semakin besar jumlah lapisan, semakin besar kapasitas model untuk menangkap pola di antara alamat IP. Namun, menggunakan sejumlah besar lapisan meningkatkan kemungkinan overfitting.

Opsional

Nilai yang valid: 0 ≤ bilangan bulat positif ≤ 100

Nilai default: 1

random_negative_sampling_rate

Jumlah sampel negatif acak, R, untuk menghasilkan per contoh input. Prosedur pelatihan bergantung pada sampel negatif untuk mencegah representasi vektor model runtuh ke satu titik. Pengambilan sampel negatif acak menghasilkan R alamat IP acak untuk setiap akun input dalam batch mini. Jumlah random_negative_sampling_rate (R) dan shuffled_negative_sampling_rate (S) harus dalam interval: 1 ≤ R + S ≤ 500.

Opsional

Nilai yang valid: 0 ≤ bilangan bulat positif ≤ 500

Nilai default: 1

shuffled_negative_sampling_rate

Jumlah sampel negatif yang diacak, S, untuk menghasilkan per contoh input. Dalam beberapa kasus, ada baiknya menggunakan sampel negatif yang lebih realistis yang dipilih secara acak dari data pelatihan itu sendiri. Pengambilan sampel negatif semacam ini dicapai dengan mengacak data dalam batch mini. Pengambilan sampel negatif yang diacak menghasilkan alamat IP negatif S dengan mengacak alamat IP dan pasangan akun dalam batch mini. Jumlah random_negative_sampling_rate (R) dan shuffled_negative_sampling_rate (S) harus dalam interval: 1 ≤ R + S ≤ 500.

Opsional

Nilai yang valid: 0 ≤ bilangan bulat positif ≤ 500

Nilai default: 1

weight_decay

Koefisien peluruhan berat. Parameter ini menambahkan faktor regularisasi L2 yang diperlukan untuk mencegah model agar tidak terlalu pas dengan data pelatihan.

Opsional

Nilai yang valid: 0.0 ≤ float ≤ 10.0

Nilai default: 0,00001