Hiperparameter Object2Vec

Dalam CreateTrainingJob permintaan, Anda menentukan algoritma pelatihan. Anda juga dapat menentukan hyperparameter khusus algoritme sebagai peta. string-to-string Tabel berikut mencantumkan hyperparameters untuk algoritma pelatihan Object2Vec.

Nama Parameter	Deskripsi
`enc0_max_seq_len`	Panjang urutan maksimum untuk encoder enc0. Diperlukan Nilai yang valid: 1 ≤ bilangan bulat ≤ 5000
`enc0_vocab_size`	Ukuran kosakata token enc0. Diperlukan Nilai yang valid: 2 ≤ integer ≤ 3000000
`bucket_width`	Perbedaan yang diizinkan antara panjang urutan data saat bucketing diaktifkan. Untuk mengaktifkan bucketing, tentukan nilai bukan nol untuk parameter ini. Opsional Nilai yang valid: 0 ≤ bilangan bulat ≤ 100 Nilai default: 0 (tidak ada ember)
`comparator_list`	Daftar yang digunakan untuk menyesuaikan cara di mana dua embeddings dibandingkan. Lapisan operator komparator Object2Vec mengambil pengkodean dari kedua encoder sebagai input dan output satu vektor. Vektor ini adalah rangkaian subvektor. Nilai string yang diteruskan ke `comparator_list` dan urutan di mana mereka dilewatkan menentukan bagaimana subvektor ini dirakit. Misalnya, jika`comparator_list="hadamard, concat"`, maka operator komparator membangun vektor dengan menggabungkan produk Hadamard dari dua pengkodean dan penggabungan dua pengkodean. Jika, di sisi lain`comparator_list="hadamard"`, maka operator komparator membangun vektor sebagai produk hadamard dari hanya dua pengkodean. Opsional Nilai yang valid: String yang berisi kombinasi nama dari tiga operator biner:`hadamard`,`concat`, atau`abs_diff`. Algoritma Object2Vec saat ini mensyaratkan bahwa dua pengkodean vektor memiliki dimensi yang sama. Operator ini menghasilkan subvektor sebagai berikut: `hadamard`: Membangun vektor sebagai produk Hadamard (berdasarkan elemen) dari dua pengkodean. `concat`: Membangun vektor sebagai rangkaian dari dua pengkodean. `abs_diff`: Membangun vektor sebagai perbedaan mutlak antara dua pengkodean. Nilai default: `"hadamard, concat, abs_diff"`
`dropout`	Probabilitas putus sekolah untuk lapisan jaringan. Putus sekolah adalah bentuk regularisasi yang digunakan dalam jaringan saraf yang mengurangi overfitting dengan memangkas neuron kodependen. Opsional Nilai yang valid: 0.0 ≤ float ≤ 1.0 Nilai default: 0.0
`early_stopping_patience`	Jumlah zaman berturut-turut tanpa perbaikan diperbolehkan sebelum penghentian awal diterapkan. Perbaikan didefinisikan oleh dengan `early_stopping_tolerance` hyperparameter. Opsional Nilai yang valid: 1 ≤ bilangan bulat ≤ 5 Nilai default: 3
`early_stopping_tolerance`	Pengurangan fungsi kerugian yang harus dicapai oleh suatu algoritma antara zaman berurutan untuk menghindari penghentian awal setelah jumlah zaman berturut-turut yang ditentukan dalam hyperparameter disimpulkan. `early_stopping_patience` Opsional Nilai yang valid: 0,000001 ≤ float ≤ 0,1 Nilai default: 0,01
`enc_dim`	Dimensi output dari lapisan embedding. Opsional Nilai yang valid: 4 ≤ bilangan bulat ≤ 10000 Nilai default: 4096
`enc0_network`	Model jaringan untuk encoder enc0. Opsional Nilai valid: `hcnn`, `bilstm`, atau `pooled_embedding` `hcnn`: Jaringan saraf konvolusional hierarkis. `bilstm`: Jaringan memori jangka pendek dua arah (BilsTM), di mana sinyal merambat mundur dan maju dalam waktu. Ini adalah arsitektur jaringan saraf berulang (RNN) yang sesuai untuk tugas pembelajaran berurutan. `pooled_embedding`: Rata-rata embeddings dari semua token dalam input. Nilai default: `hcnn`
`enc0_cnn_filter_width`	Lebar filter encoder convolutional neural network (CNN) enc0. Bersyarat Nilai yang valid: 1 ≤ bilangan bulat ≤ 9 Nilai default: 3
`enc0_freeze_pretrained_embedding`	Apakah akan membekukan bobot penyematan enc0 yang telah dilatih sebelumnya. Bersyarat Nilai yang valid: `True` or `False` Nilai default: `True`
`enc0_layers`	Jumlah lapisan dalam encoder enc0. Bersyarat Nilai yang valid: `auto` atau 1 ≤ bilangan bulat ≤ 4 Untuk`hcnn`, `auto` berarti 4. Untuk`bilstm`, `auto` berarti 1. Untuk`pooled_embedding`, `auto` mengabaikan jumlah lapisan. Nilai default: `auto`
`enc0_pretrained_embedding_file`	Nama file file embedding token enc0 yang telah dilatih sebelumnya di saluran data tambahan. Bersyarat Nilai yang valid: String dengan karakter alfanumerik, garis bawah, atau titik. [A-ZA-Z0-9\.\ _] Nilai default: “” (string kosong)
`enc0_token_embedding_dim`	Dimensi output dari layer embedding token enc0. Bersyarat Nilai yang valid: 2 ≤ bilangan bulat ≤ 1000 Nilai default: 300
`enc0_vocab_file`	File kosakata untuk memetakan vektor penyematan token enc0 yang telah dilatih sebelumnya ke kosakata numerik. IDs Bersyarat Nilai yang valid: String dengan karakter alfanumerik, garis bawah, atau titik. [A-ZA-Z0-9\.\ _] Nilai default: “” (string kosong)
`enc1_network`	Model jaringan untuk encoder enc1. Jika Anda ingin encoder enc1 menggunakan model jaringan yang sama dengan enc0, termasuk nilai hyperparameter, tetapkan nilainya ke. `enc0` catatan Bahkan ketika jaringan encoder enc0 dan enc1 memiliki arsitektur simetris, Anda tidak dapat berbagi nilai parameter untuk jaringan ini. Opsional Nilai yang benar: `enc0`, `hcnn`, `bilstm`, atau `pooled_embedding` `enc0`: Model jaringan untuk encoder enc0. `hcnn`: Jaringan saraf konvolusional hierarkis. `bilstm`: LSTM dua arah, di mana sinyal merambat mundur dan maju dalam waktu. Ini adalah arsitektur jaringan saraf berulang (RNN) yang sesuai untuk tugas pembelajaran berurutan. `pooled_embedding`: Rata-rata penyematan semua token dalam input. Nilai default: `enc0`
`enc1_cnn_filter_width`	Lebar filter encoder CNN enc1. Bersyarat Nilai yang valid: 1 ≤ bilangan bulat ≤ 9 Nilai default: 3
`enc1_freeze_pretrained_embedding`	Apakah akan membekukan bobot penyematan enc1 yang telah dilatih sebelumnya. Bersyarat Nilai yang valid: `True` or `False` Nilai default: `True`
`enc1_layers`	Jumlah lapisan dalam encoder enc1. Bersyarat Nilai yang valid: `auto` atau 1 ≤ bilangan bulat ≤ 4 Untuk`hcnn`, `auto` berarti 4. Untuk`bilstm`, `auto` berarti 1. Untuk`pooled_embedding`, `auto` mengabaikan jumlah lapisan. Nilai default: `auto`
`enc1_max_seq_len`	Panjang urutan maksimum untuk encoder enc1. Bersyarat Nilai yang valid: 1 ≤ bilangan bulat ≤ 5000
`enc1_pretrained_embedding_file`	Nama file embedding token enc1 yang telah dilatih sebelumnya di saluran data tambahan. Bersyarat Nilai yang valid: String dengan karakter alfanumerik, garis bawah, atau titik. [A-ZA-Z0-9\.\ _] Nilai default: “” (string kosong)
`enc1_token_embedding_dim`	Dimensi output dari layer embedding token enc1. Bersyarat Nilai yang valid: 2 ≤ bilangan bulat ≤ 1000 Nilai default: 300
`enc1_vocab_file`	File kosakata untuk memetakan embeddings token enc1 yang telah dilatih sebelumnya ke kosakata. IDs Bersyarat Nilai yang valid: String dengan karakter alfanumerik, garis bawah, atau titik. [A-ZA-Z0-9\.\ _] Nilai default: “” (string kosong)
`enc1_vocab_size`	Ukuran kosakata token enc0. Bersyarat Nilai yang valid: 2 ≤ integer ≤ 3000000
`epochs`	Jumlah zaman yang harus dijalankan untuk pelatihan. Opsional Nilai yang valid: 1 ≤ bilangan bulat ≤ 100 Nilai default: 30
`learning_rate`	Tingkat pembelajaran untuk pelatihan. Opsional Nilai yang valid: 1.0E-6 ≤ float ≤ 1.0 Nilai default: 0,0004
`mini_batch_size`	Ukuran batch tempat kumpulan data dibagi menjadi `optimizer` selama pelatihan. Opsional Nilai yang valid: 1 ≤ bilangan bulat ≤ 10000 Nilai default: 32
`mlp_activation`	Jenis fungsi aktivasi untuk lapisan multilayer perceptron (MLP). Opsional Nilai valid: `tanh`, `relu`, atau `linear` `tanh`: Tangen hiperbolik `relu`: Unit linier yang diperbaiki (ReLU) `linear`: Fungsi linier Nilai default: `linear`
`mlp_dim`	Dimensi output dari lapisan MLP. Opsional Nilai yang valid: 2 ≤ bilangan bulat ≤ 10000 Nilai default: 512
`mlp_layers`	Jumlah lapisan MLP dalam jaringan. Opsional Nilai yang valid: 0 ≤ bilangan bulat ≤ 10 Nilai default: 2
`negative_sampling_rate`	Rasio sampel negatif, yang dihasilkan untuk membantu melatih algoritme, dengan sampel positif yang disediakan oleh pengguna. Sampel negatif mewakili data yang tidak mungkin terjadi dalam kenyataan dan diberi label negatif untuk pelatihan. Mereka memfasilitasi pelatihan model untuk membedakan antara sampel positif yang diamati dan sampel negatif yang tidak. Untuk menentukan rasio sampel negatif terhadap sampel positif yang digunakan untuk pelatihan, tetapkan nilainya ke bilangan bulat positif. Misalnya, jika Anda melatih algoritme pada data input di mana semua sampel positif dan disetel `negative_sampling_rate` ke 2, algoritma Object2Vec secara internal menghasilkan dua sampel negatif per sampel positif. Jika Anda tidak ingin menghasilkan atau menggunakan sampel negatif selama pelatihan, tetapkan nilainya ke 0. Opsional Nilai yang valid: 0 ≤ integer Nilai default: 0 (off)
`num_classes`	Jumlah kelas untuk pelatihan klasifikasi. Amazon SageMaker AI mengabaikan hyperparameter ini untuk masalah regresi. Opsional Nilai yang valid: 2 ≤ bilangan bulat ≤ 30 Nilai default: 2
`optimizer`	Jenis pengoptimal. Opsional Nilai yang valid:`adadelta`,`adagrad`,`adam`,`sgd`, atau`rmsprop`. `adadelta`: Metode tingkat pembelajaran per dimensi untuk penurunan gradien `adagrad`: Algoritma gradien adaptif `adam`: Algoritma estimasi momen adaptif `sgd`: Penurunan gradien stokastik `rmsprop`: Perbanyakan kuadrat rata-rata akar Nilai default: `adam`
`output_layer`	Jenis lapisan keluaran tempat Anda menentukan bahwa tugasnya adalah regresi atau klasifikasi. Opsional Nilai yang valid: `softmax` atau `mean_squared_error` `softmax`: Fungsi Softmax digunakan untuk klasifikasi. `mean_squared_error`: MSE digunakan untuk regresi. Nilai default: `softmax`
`tied_token_embedding_weight`	Apakah akan menggunakan layer embedding bersama untuk kedua encoder. Jika input ke kedua encoder menggunakan unit tingkat token yang sama, gunakan layer embedding token bersama. Misalnya, untuk kumpulan dokumen, jika satu encoder mengkodekan kalimat dan yang lain mengkodekan seluruh dokumen, Anda dapat menggunakan lapisan penyematan token bersama. Itu karena kalimat dan dokumen terdiri dari token kata dari kosakata yang sama. Opsional Nilai yang valid: `True` or `False` Nilai default: `False`
`token_embedding_storage_type`	Mode pembaruan gradien yang digunakan selama pelatihan: ketika `dense` mode digunakan, pengoptimal menghitung matriks gradien penuh untuk lapisan penyematan token meskipun sebagian besar baris gradien bernilai nol. Saat `sparse` mode digunakan, pengoptimal hanya menyimpan baris gradien yang sebenarnya digunakan dalam batch mini. Jika Anda ingin algoritme melakukan pembaruan gradien malas, yang menghitung gradien hanya di baris bukan nol dan yang mempercepat pelatihan, tentukan. `row_sparse` Mengatur nilai untuk `row_sparse` membatasi nilai yang tersedia untuk hiperparameter lainnya, sebagai berikut: `optimizer`Hyperparameter harus diatur ke`adam`,`adagrad`, atau`sgd`. Jika tidak, algoritme melempar a. `CustomerValueError` Algoritma secara otomatis menonaktifkan bucketing, mengatur hyperparameter ke `bucket_width` 0. Opsional Nilai yang valid: `dense` or `row_sparse` Nilai default: `dense`
`weight_decay`	Parameter peluruhan berat yang digunakan untuk optimasi. Opsional Nilai yang valid: 0 ≤ float ≤ 10000 Nilai default: 0 (tidak ada pembusukan)

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Cara Kerjanya

Penyetelan Model

Hiperparameter Object2Vec

catatan