Object2Vec Hyperparameters - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Object2Vec Hyperparameters

En la solicitud CreateTrainingJob, especifique el algoritmo de capacitación. También puede especificar hiperparámetros específicos del algoritmo como mapas. string-to-string En la siguiente tabla se muestran los hiperparámetros para el algoritmo de capacitación Object2Vec.

Nombre del parámetro Descripción
enc0_max_seq_len

La longitud de secuencia máxima para el codificador enc0.

Obligatorio

Valores válidos: 1 ≤ entero ≤ 5000

enc0_vocab_size

El tamaño de vocabulario de tokens enc0.

Obligatorio

Valores válidos: 2 ≤ entero ≤ 3 000 000

bucket_width

La diferencia permitida entre la longitud de la secuencia de datos cuando el almacenamiento en buckets está habilitado. Para habilitar el almacenamiento en buckets, especifique un valor distinto de cero para este parámetro.

Opcional

Valores válidos: 0 ≤ entero ≤ 100

Valor predeterminado: 0 (no bucketing)

comparator_list

Una lista que se utiliza para personalizar la forma en que se comparan dos integraciones. La capa de operador comparador de Object2Vec toma las codificaciones de ambos codificadores como entradas y genera un único vector. Este vector es una concatenación de subvectores. Los valores de cadena transferidos a la comparator_list y el orden en que se pasan determinan cómo se montan estos subvectores. Por ejemplo, si comparator_list="hadamard, concat", el operador comparador crea el vector concatenando el producto Hadamard de dos codificaciones y la concatenación de dos codificaciones. Si, por el contrario, comparator_list="hadamard", el comparador vector construirá el vector como el producto hadamard de solo dos codificaciones.

Opcional

Valores válidos: cadena que contiene cualquier combinación de los nombres de los tres operadores binarios: hadamard, concat o abs_diff. El algoritmo Object2Vec necesita actualmente que las dos codificaciones de vectores tengan la misma dimensión. Estos operadores producir los subvectores tal y como se indica a continuación:

  • hadamard: crea un vector como el producto Hadamard (algebraico) de dos codificaciones.

  • concat: crea un vector como la concatenación de dos codificaciones.

  • abs_diff: crea un vector como la diferencia absoluta entre dos codificaciones.

Valor predeterminado: "hadamard, concat, abs_diff"

dropout

La probabilidad de abandono para capas de red. Dropout es una forma de regularización utilizada en redes neuronales que reduce el sobreajuste recortando las neuronas codependientes.

Opcional

Valores válidos: 0,0 ≤ flotante ≤ 1,0

Valor predeterminado: 0,0

early_stopping_patience

El número de fechas de inicio consecutivas sin mejora permitida antes de que se aplique una detención temprana. La mejora se define con el hiperparámetro early_stopping_tolerance.

Opcional

Valores válidos: 1 ≤ entero ≤ 5

Valor predeterminado: 3

early_stopping_tolerance

La reducción de la función de pérdida que un algoritmo debe conseguir entre fechas de inicio consecutivas para evitar una detención precoz después de que el número de fechas de inicio consecutivas especificado en el hiperparámetro early_stopping_patience concluya.

Opcional

Valores válidos: 0,000001 ≤ flotante ≤ 0,1

Valor predeterminado: 0,01

enc_dim

La dimensión de la salida de la capa de integración.

Opcional

Valores válidos: 4 ≤ entero ≤ 10 000

Valor predeterminado: 4096

enc0_network

El modelo de red para el codificador enc0.

Opcional

Valores válidos: hcnn, bilstm o pooled_embedding

  • hcnn: una red neuronal convolucional jerárquica.

  • bilstm: una red bidireccional de memoria larga y corta (biLSTM), en la que la señal se propaga hacia adelante y hacia atrás en el tiempo. Se trata de una arquitectura de red neuronal recurrente (RNN) adecuada para tareas de aprendizaje secuencial.

  • pooled_embedding: calcula la media de las integraciones de todos los tokens de la entrada.

Valor predeterminado: hcnn

enc0_cnn_filter_width

El ancho del filtro del codificador enc0 de la red neuronal convolucional (CNN).

Condicional

Valores válidos: 1 ≤ entero ≤ 9

Valor predeterminado: 3

enc0_freeze_pretrained_embedding

Congelar o no ponderaciones de integraciones precapacitadas enc0.

Condicional

Valores válidos: True o False

Valor predeterminado: True

enc0_layers

El número de capas ocultas del codificador enc0.

Condicional

Valores válidos: auto o 1 ≤ entero ≤ 4

  • Para hcnn, auto significa 4.

  • Para bilstm, auto significa 1.

  • En pooled_embedding, auto no tiene en cuenta el número de capas.

Valor predeterminado: auto

enc0_pretrained_embedding_file

El nombre del archivo de integración de token enc0 precapacitado en el canal de datos auxiliares.

Condicional

Valores válidos: cadenas con caracteres alfanuméricos, guion bajo o punto. [A-Za-z0-9\.\_]

Valor predeterminado: "" (cadena vacía)

enc0_token_embedding_dim

La dimensión de la salida de la capa de integración de token enc0.

Condicional

Valores válidos: 2 ≤ entero ≤ 1000

Valor predeterminado: 300

enc0_vocab_file

El archivo de vocabulario para mapear vectores de incrustación de tokens enc0 previamente entrenados a vocabulario numérico. IDs

Condicional

Valores válidos: cadenas con caracteres alfanuméricos, guion bajo o punto. [A-Za-z0-9\.\_]

Valor predeterminado: "" (cadena vacía)

enc1_network

El modelo de red para el codificador enc1. Si desea que el codificador enc1 use el mismo modelo de red que enc0, incluidos los valores de hiperparámetros, establezca el valor en enc0.

nota

Incluso cuando las redes de codificadores enc1 y enc0 tienen arquitecturas simétricas, no puede compartir valores de parámetros para estas redes.

Opcional

Valores válidos: enc0, hcnn, bilstm o pooled_embedding

  • enc0: modelo de red para el codificador enc0.

  • hcnn: una red neuronal convolucional jerárquica.

  • bilstm: Una bidireccionalLSTM, en la que la señal se propaga hacia atrás y hacia adelante en el tiempo. Se trata de una arquitectura de red neuronal recurrente (RNN) adecuada para tareas de aprendizaje secuencial.

  • pooled_embedding: promedios de las integraciones de todos los tokens en la entrada.

Valor predeterminado: enc0

enc1_cnn_filter_width

El ancho del filtro del codificador CNN enc1.

Condicional

Valores válidos: 1 ≤ entero ≤ 9

Valor predeterminado: 3

enc1_freeze_pretrained_embedding

Congelar o no ponderaciones de integraciones precapacitadas enc1.

Condicional

Valores válidos: True o False

Valor predeterminado: True

enc1_layers

El número de capas del codificador enc1.

Condicional

Valores válidos: auto o 1 ≤ entero ≤ 4

  • Para hcnn, auto significa 4.

  • Para bilstm, auto significa 1.

  • En pooled_embedding, auto no tiene en cuenta el número de capas.

Valor predeterminado: auto

enc1_max_seq_len

La longitud de secuencia máxima para el codificador enc1.

Condicional

Valores válidos: 1 ≤ entero ≤ 5000

enc1_pretrained_embedding_file

El nombre de archivo de integración del token precapacitado enc1 en el canal de datos auxiliares.

Condicional

Valores válidos: cadenas con caracteres alfanuméricos, guion bajo o punto. [A-Za-z0-9\.\_]

Valor predeterminado: "" (cadena vacía)

enc1_token_embedding_dim

La dimensión de la salida de la capa de integración de token enc1.

Condicional

Valores válidos: 2 ≤ entero ≤ 1000

Valor predeterminado: 300

enc1_vocab_file

El archivo de vocabulario para asignar al vocabulario incrustaciones de tokens enc1 previamente entrenadas. IDs

Condicional

Valores válidos: cadenas con caracteres alfanuméricos, guion bajo o punto. [A-Za-z0-9\.\_]

Valor predeterminado: "" (cadena vacía)

enc1_vocab_size

El tamaño de vocabulario de tokens enc0.

Condicional

Valores válidos: 2 ≤ entero ≤ 3 000 000

epochs

El número de fechas de inicio a ejecutar para capacitación.

Opcional

Valores válidos: 1 ≤ entero ≤ 100

Valor predeterminado: 30

learning_rate

La tasa de aprendizaje para capacitación.

Opcional

Valores válidos: 1,0E-6 ≤ flotante ≤ 1,0

Valor predeterminado: 0.0004

mini_batch_size

El tamaño de lote en que el conjunto de datos se divide para optimizer durante la capacitación.

Opcional

Valores válidos: 1 ≤ entero ≤ 10 000

Valor predeterminado: 32

mlp_activation

El tipo de función de activación de la capa perceptrón multicapa (). MLP

Opcional

Valores válidos: tanh, relu o linear

  • tanh: Tangente hiperbólica

  • relu: Unidad lineal rectificada (ReLU)

  • linear: Función lineal

Valor predeterminado: linear

mlp_dim

La dimensión de la salida de MLP las capas.

Opcional

Valores válidos: 2 ≤ entero ≤ 10 000

Valor predeterminado: 512

mlp_layers

El número de MLP capas de la red.

Opcional

Valores válidos: 0 ≤ entero ≤ 10

Valor predeterminado: 2

negative_sampling_rate

La proporción de muestras negativas, generadas para ayudar a capacitar el algoritmo, por muestras positivas que los usuarios proporcionan. Las muestras negativas representan datos que es poco probable que se produzcan en la realidad y se etiquetan negativamente para la capacitación. Facilitan la capacitación de un modelo para distinguir entre las muestras positivas observadas y las muestras negativas que no lo son. Para especificar la proporción de muestras negativas por muestras positivas utilizado para la capacitación, establezca el valor en un número entero positivo. Por ejemplo, si capacita el algoritmo con datos de entrada en los que todas las muestras son positivas y establece negative_sampling_rate en 2, el algoritmo Object2Vec genera internamente dos muestras negativas por cada muestra positiva. Si no desea generar ni utilizar muestras negativas durante la capacitación, establezca el valor en 0.

Opcional

Valores válidos: 0 ≤ entero

Valor predeterminado: 0 (desconectado)

num_classes

El número de clases para capacitación de clasificación. Amazon SageMaker ignora este hiperparámetro en caso de problemas de regresión.

Opcional

Valores válidos: 2 ≤ entero ≤ 30

Valor predeterminado: 2

optimizer

El tipo de optimizador.

Opcional

Valores válidos: adadelta, adagrad, adam, sgd o rmsprop.

Valor predeterminado: adam

output_layer

El tipo de capa de salida en la que se especifica que la tarea es una regresión o clasificación.

Opcional

Valores válidos: softmax o mean_squared_error

  • softmax: La función Softmax utilizada para clasificación.

  • mean_squared_error: El que MSEse usa para la regresión.

Valor predeterminado: softmax

tied_token_embedding_weight

Si se utiliza o no una capa de integración compartida para ambos codificadores. Si las entradas de ambos codificadores utilizan las mismas unidades de nivel de token, utilice una capa de integración de token compartido. Por ejemplo, en el caso de una colección de documentos, si un codificador codifica frases y otro codifica documentos completos, puede utilizar una capa de integración de token compartida. Esto se debe a que tanto las frases como los documentos se componen de tokens de palabras del mismo vocabulario.

Opcional

Valores válidos: True o False

Valor predeterminado: False

token_embedding_storage_type

El modo de actualización de gradiente utilizado durante la capacitación: cuando se utiliza el modo dense, el optimizador calcula la matriz de gradiente completa para la capa de integración de token aunque la mayoría de las filas de gradiente tengan un valor de cero. Cuando se usa el modo sparse, el optimizador solo almacena filas de gradientes que se están utilizando realmente en el minilote. Si desea que el algoritmo realice actualizaciones de gradientes diferidas, que calculan los gradientes solamente en las filas que no tienen el valor de cero y que aceleran la capacitación, especifique row_sparse. Si configura el valor en row_sparse, los valores disponibles para otros hiperparámetros se restringirán, tal y como se indica a continuación:

  • El hiperparámetro optimizer tiene que establecerse en adam, adagrad o sgd. De lo contrario, el algoritmo genera un CustomerValueError.

  • El algoritmo desactiva automáticamente la asignación de buckets y establece el hiperparámetro bucket_width en 0.

Opcional

Valores válidos: dense o row_sparse

Valor predeterminado: dense

weight_decay

El parámetro de degradación ponderal utilizado para optimización.

Opcional

Valores válidos: 0 ≤ número flotante ≤ 10 000

Valor predeterminado: 0 (sin decadencia)