Object2Vec Hyperparameters

En la solicitud CreateTrainingJob, especifique el algoritmo de capacitación. También puede especificar hiperparámetros específicos del algoritmo como mapas. string-to-string En la siguiente tabla se muestran los hiperparámetros para el algoritmo de capacitación Object2Vec.

Nombre del parámetro	Descripción
`enc0_max_seq_len`	La longitud de secuencia máxima para el codificador enc0. Obligatorio Valores válidos: 1 ≤ entero ≤ 5000
`enc0_vocab_size`	El tamaño de vocabulario de tokens enc0. Obligatorio Valores válidos: 2 ≤ entero ≤ 3 000 000
`bucket_width`	La diferencia permitida entre la longitud de la secuencia de datos cuando el almacenamiento en buckets está habilitado. Para habilitar el almacenamiento en buckets, especifique un valor distinto de cero para este parámetro. Opcional Valores válidos: 0 ≤ entero ≤ 100 Valor predeterminado: 0 (no bucketing)
`comparator_list`	Una lista que se utiliza para personalizar la forma en que se comparan dos integraciones. La capa de operador comparador de Object2Vec toma las codificaciones de ambos codificadores como entradas y genera un único vector. Este vector es una concatenación de subvectores. Los valores de cadena transferidos a la `comparator_list` y el orden en que se pasan determinan cómo se montan estos subvectores. Por ejemplo, si `comparator_list="hadamard, concat"`, el operador comparador crea el vector concatenando el producto Hadamard de dos codificaciones y la concatenación de dos codificaciones. Si, por el contrario, `comparator_list="hadamard"`, el comparador vector construirá el vector como el producto hadamard de solo dos codificaciones. Opcional Valores válidos: cadena que contiene cualquier combinación de los nombres de los tres operadores binarios: `hadamard`, `concat` o `abs_diff`. El algoritmo Object2Vec necesita actualmente que las dos codificaciones de vectores tengan la misma dimensión. Estos operadores producir los subvectores tal y como se indica a continuación: `hadamard`: crea un vector como el producto Hadamard (algebraico) de dos codificaciones. `concat`: crea un vector como la concatenación de dos codificaciones. `abs_diff`: crea un vector como la diferencia absoluta entre dos codificaciones. Valor predeterminado: `"hadamard, concat, abs_diff"`
`dropout`	La probabilidad de abandono para capas de red. Dropout es una forma de regularización utilizada en redes neuronales que reduce el sobreajuste recortando las neuronas codependientes. Opcional Valores válidos: 0,0 ≤ flotante ≤ 1,0 Valor predeterminado: 0,0
`early_stopping_patience`	El número de fechas de inicio consecutivas sin mejora permitida antes de que se aplique una detención temprana. La mejora se define con el hiperparámetro `early_stopping_tolerance`. Opcional Valores válidos: 1 ≤ entero ≤ 5 Valor predeterminado: 3
`early_stopping_tolerance`	La reducción de la función de pérdida que un algoritmo debe conseguir entre fechas de inicio consecutivas para evitar una detención precoz después de que el número de fechas de inicio consecutivas especificado en el hiperparámetro `early_stopping_patience` concluya. Opcional Valores válidos: 0,000001 ≤ flotante ≤ 0,1 Valor predeterminado: 0,01
`enc_dim`	La dimensión de la salida de la capa de integración. Opcional Valores válidos: 4 ≤ entero ≤ 10 000 Valor predeterminado: 4096
`enc0_network`	El modelo de red para el codificador enc0. Opcional Valores válidos: `hcnn`, `bilstm` o `pooled_embedding` `hcnn`: una red neuronal convolucional jerárquica. `bilstm`: red de memoria bidireccional de a corto y largo plazo (biLSTM), donde la señal se propaga hacia atrás y hacia delante en el tiempo. Se trata de una arquitectura de red neuronal recurrente (RNN) adecuada para tareas de aprendizaje secuencial. `pooled_embedding`: calcula la media de las integraciones de todos los tokens de la entrada. Valor predeterminado: `hcnn`
`enc0_cnn_filter_width`	La anchura del filtro del codificador enc0 de la red neuronal convolucional (CNN). Condicional Valores válidos: 1 ≤ entero ≤ 9 Valor predeterminado: 3
`enc0_freeze_pretrained_embedding`	Congelar o no ponderaciones de integraciones precapacitadas enc0. Condicional Valores válidos: `True` o `False` Valor predeterminado: `True`
`enc0_layers`	El número de capas ocultas del codificador enc0. Condicional Valores válidos: `auto` o 1 ≤ entero ≤ 4 Para `hcnn`, `auto` significa 4. Para `bilstm`, `auto` significa 1. En `pooled_embedding`, `auto` no tiene en cuenta el número de capas. Valor predeterminado: `auto`
`enc0_pretrained_embedding_file`	El nombre del archivo de integración de token enc0 precapacitado en el canal de datos auxiliares. Condicional Valores válidos: cadenas con caracteres alfanuméricos, guion bajo o punto. [A-Za-z0-9\.\_] Valor predeterminado: "" (cadena vacía)
`enc0_token_embedding_dim`	La dimensión de la salida de la capa de integración de token enc0. Condicional Valores válidos: 2 ≤ entero ≤ 1000 Valor predeterminado: 300
`enc0_vocab_file`	El archivo de vocabulario para mapear vectores de incrustación de tokens enc0 previamente entrenados a vocabulario numérico. IDs Condicional Valores válidos: cadenas con caracteres alfanuméricos, guion bajo o punto. [A-Za-z0-9\.\_] Valor predeterminado: "" (cadena vacía)
`enc1_network`	El modelo de red para el codificador enc1. Si desea que el codificador enc1 use el mismo modelo de red que enc0, incluidos los valores de hiperparámetros, establezca el valor en `enc0`. nota Incluso cuando las redes de codificadores enc1 y enc0 tienen arquitecturas simétricas, no puede compartir valores de parámetros para estas redes. Opcional Valores válidos: `enc0`, `hcnn`, `bilstm` o `pooled_embedding` `enc0`: modelo de red para el codificador enc0. `hcnn`: una red neuronal convolucional jerárquica. `bilstm`: memoria bidireccional LSTM, en que la señal se propaga hacia atrás y hacia delante en el tiempo. Se trata de una arquitectura de red neuronal recurrente (RNN) adecuada para tareas de aprendizaje secuencial. `pooled_embedding`: promedios de las integraciones de todos los tokens en la entrada. Valor predeterminado: `enc0`
`enc1_cnn_filter_width`	La anchura de filtro del codificador enc1 CNN. Condicional Valores válidos: 1 ≤ entero ≤ 9 Valor predeterminado: 3
`enc1_freeze_pretrained_embedding`	Congelar o no ponderaciones de integraciones precapacitadas enc1. Condicional Valores válidos: `True` o `False` Valor predeterminado: `True`
`enc1_layers`	El número de capas del codificador enc1. Condicional Valores válidos: `auto` o 1 ≤ entero ≤ 4 Para `hcnn`, `auto` significa 4. Para `bilstm`, `auto` significa 1. En `pooled_embedding`, `auto` no tiene en cuenta el número de capas. Valor predeterminado: `auto`
`enc1_max_seq_len`	La longitud de secuencia máxima para el codificador enc1. Condicional Valores válidos: 1 ≤ entero ≤ 5000
`enc1_pretrained_embedding_file`	El nombre de archivo de integración del token precapacitado enc1 en el canal de datos auxiliares. Condicional Valores válidos: cadenas con caracteres alfanuméricos, guion bajo o punto. [A-Za-z0-9\.\_] Valor predeterminado: "" (cadena vacía)
`enc1_token_embedding_dim`	La dimensión de la salida de la capa de integración de token enc1. Condicional Valores válidos: 2 ≤ entero ≤ 1000 Valor predeterminado: 300
`enc1_vocab_file`	El archivo de vocabulario para asignar incrustaciones de tokens enc1 previamente entrenadas al vocabulario. IDs Condicional Valores válidos: cadenas con caracteres alfanuméricos, guion bajo o punto. [A-Za-z0-9\.\_] Valor predeterminado: "" (cadena vacía)
`enc1_vocab_size`	El tamaño de vocabulario de tokens enc0. Condicional Valores válidos: 2 ≤ entero ≤ 3 000 000
`epochs`	El número de fechas de inicio a ejecutar para capacitación. Opcional Valores válidos: 1 ≤ entero ≤ 100 Valor predeterminado: 30
`learning_rate`	La tasa de aprendizaje para capacitación. Opcional Valores válidos: 1,0E-6 ≤ flotante ≤ 1,0 Valor predeterminado: 0.0004
`mini_batch_size`	El tamaño de lote en que el conjunto de datos se divide para `optimizer` durante la capacitación. Opcional Valores válidos: 1 ≤ entero ≤ 10 000 Valor predeterminado: 32
`mlp_activation`	El tipo de función de activación para la capa perceptron multicapa (MLP). Opcional Valores válidos: `tanh`, `relu` o `linear` `tanh`: Tangente hiperbólica `relu`: Unidad lineal rectificada (ReLU) `linear`: Función lineal Valor predeterminado: `linear`
`mlp_dim`	La dimensión de la salida de capas MLP. Opcional Valores válidos: 2 ≤ entero ≤ 10 000 Valor predeterminado: 512
`mlp_layers`	El número de capas MLP en la red. Opcional Valores válidos: 0 ≤ entero ≤ 10 Valor predeterminado: 2
`negative_sampling_rate`	La proporción de muestras negativas, generadas para ayudar a capacitar el algoritmo, por muestras positivas que los usuarios proporcionan. Las muestras negativas representan datos que es poco probable que se produzcan en la realidad y se etiquetan negativamente para la capacitación. Facilitan la capacitación de un modelo para distinguir entre las muestras positivas observadas y las muestras negativas que no lo son. Para especificar la proporción de muestras negativas por muestras positivas utilizado para la capacitación, establezca el valor en un número entero positivo. Por ejemplo, si capacita el algoritmo con datos de entrada en los que todas las muestras son positivas y establece `negative_sampling_rate` en 2, el algoritmo Object2Vec genera internamente dos muestras negativas por cada muestra positiva. Si no desea generar ni utilizar muestras negativas durante la capacitación, establezca el valor en 0. Opcional Valores válidos: 0 ≤ entero Valor predeterminado: 0 (desconectado)
`num_classes`	El número de clases para capacitación de clasificación. Amazon SageMaker AI ignora este hiperparámetro en el caso de problemas de regresión. Opcional Valores válidos: 2 ≤ entero ≤ 30 Valor predeterminado: 2
`optimizer`	El tipo de optimizador. Opcional Valores válidos: `adadelta`, `adagrad`, `adam`, `sgd` o `rmsprop`. `adadelta`: método de tasa de aprendizaje por dimensión para descenso de gradiente `adagrad`: algoritmo de gradiente adaptativo `adam`: algoritmo de estimación de momento adaptativo `sgd`: descenso de gradiente estocástico `rmsprop`: Root mean square propagation Valor predeterminado: `adam`
`output_layer`	El tipo de capa de salida en la que se especifica que la tarea es una regresión o clasificación. Opcional Valores válidos: `softmax` o `mean_squared_error` `softmax`: La función Softmax utilizada para clasificación. `mean_squared_error`: El MSE utilizado para regresión. Valor predeterminado: `softmax`
`tied_token_embedding_weight`	Si se utiliza o no una capa de integración compartida para ambos codificadores. Si las entradas de ambos codificadores utilizan las mismas unidades de nivel de token, utilice una capa de integración de token compartido. Por ejemplo, en el caso de una colección de documentos, si un codificador codifica frases y otro codifica documentos completos, puede utilizar una capa de integración de token compartida. Esto se debe a que tanto las frases como los documentos se componen de tokens de palabras del mismo vocabulario. Opcional Valores válidos: `True` o `False` Valor predeterminado: `False`
`token_embedding_storage_type`	El modo de actualización de gradiente utilizado durante la capacitación: cuando se utiliza el modo `dense`, el optimizador calcula la matriz de gradiente completa para la capa de integración de token aunque la mayoría de las filas de gradiente tengan un valor de cero. Cuando se usa el modo `sparse`, el optimizador solo almacena filas de gradientes que se están utilizando realmente en el minilote. Si desea que el algoritmo realice actualizaciones de gradientes diferidas, que calculan los gradientes solamente en las filas que no tienen el valor de cero y que aceleran la capacitación, especifique `row_sparse`. Si configura el valor en `row_sparse`, los valores disponibles para otros hiperparámetros se restringirán, tal y como se indica a continuación: El hiperparámetro `optimizer` tiene que establecerse en `adam`, `adagrad` o `sgd`. De lo contrario, el algoritmo genera un `CustomerValueError`. El algoritmo desactiva automáticamente la asignación de buckets y establece el hiperparámetro `bucket_width` en 0. Opcional Valores válidos: `dense` o `row_sparse` Valor predeterminado: `dense`
`weight_decay`	El parámetro de degradación ponderal utilizado para optimización. Opcional Valores válidos: 0 ≤ número flotante ≤ 10 000 Valor predeterminado: 0 (sin decadencia)

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Cómo funciona

Ajuste de modelo

Object2Vec Hyperparameters

nota