Hiperparámetros de aprendizaje lineal - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Hiperparámetros de aprendizaje lineal

La siguiente tabla contiene los hiperparámetros del algoritmo de aprendizaje lineal. Estos son los parámetros que establecen los usuarios para facilitar la estimación de los parámetros del modelo a partir de los datos. Los hiperparámetros necesarios que deben establecerse se enumerarán en primer lugar, en orden alfabético. Los hiperparámetros opcionales que se pueden establecer aparecen a continuación en la lista, también en orden alfabético. Cuando un hiperparámetro se establece en auto, Amazon SageMaker calculará y establecerá automáticamente el valor de ese hiperparámetro.

Nombre del parámetro Descripción
num_classes

El número de clases para la respuesta variable. El algoritmo presupone que las clases se etiquetan 0, ..., num_classes - 1.

Obligatorio cuando predictor_type es multiclass_classifier. De lo contrario, el algoritmo hace caso omiso de él.

Valores válidos: Enteros comprendidos entre 3 y 1 000 000.

predictor_type

Especifica el tipo de variable de destino como una clasificación binaria, clasificación de varias clases, o regresión.

Obligatorio

Valores válidos: binary_classifier, multiclass_classifier o regressor

accuracy_top_k

A la hora de calcular la métrica de precisión de top-k para la clasificación de varias clases, el valor de k. Si el modelo asigna una de las puntuaciones top-k a la verdadera etiqueta, el ejemplo será puntuado como correcto.

Opcional

Valores válidos: enteros positivos

Valor predeterminado: 3

balance_multiclass_weights

Especifica si se debe usar ponderaciones de clase, que proporcionan a cada clase igual importancia en la función de pérdida. Solo se usa cuando el predictor_type es multiclass_classifier.

Opcional

Valores válidos: true, false

Valor predeterminado: false

beta_1

Tasa de decremento exponencial para las estimaciones del primer momento. Se aplica solo cuando el valor de optimizer es adam.

Opcional

Valores válidos: auto o de valor de punto flotante comprendido entre 0 y 1,0

Valor predeterminado: auto

beta_2

Tasa de decremento exponencial para las estimaciones de segundo momento. Se aplica solo cuando el valor de optimizer es adam.

Opcional

Valores válidos: auto o entero de punto flotante comprendido entre 0 y 1,0

Valor predeterminado: auto

bias_lr_mult

Permite una tasa de aprendizaje diferente para el plazo de sesgo. La tasa de aprendizaje real para el sesgo es learning_rate * bias_lr_mult.

Opcional

Valores válidos: auto o entero positivo de punto flotante

Valor predeterminado: auto

bias_wd_mult

Permite una regularización diferente para el plazo de sesgo. La ponderación de regularización de L2 real para el sesgo es wd * bias_wd_mult. De forma predeterminada, no hay ninguna regularización en el plazo de sesgo.

Opcional

Valores válidos: auto o entero no negativo de punto flotante

Valor predeterminado: auto

binary_classifier_model_selection_criteria

Cuando predictor_type se establece en binary_classifier, los criterios de evaluación del modelo para el conjunto de datos de validación (o para el conjunto de datos de capacitación si no proporciona un conjunto de datos de validación). Los criterios incluyen:

  • accuracy: el modelo con la mayor precisión.

  • f_beta: el modelo con la mayor puntuación f1. El valor predeterminado es F1.

  • precision_at_target_recall: el modelo con la máxima precisión en un objetivo de exhaustividad determinado.

  • recall_at_target_precision: el modelo con la máxima exhaustividad en un objetivo de precisión determinado.

  • loss_function: el modelo con el valor más bajo de la función de pérdida utilizado en el entrenamiento.

Opcional

Valores válidos: accuracy, f_beta, precision_at_target_recall, recall_at_target_precision, o loss_function

Valor predeterminado: accuracy

early_stopping_patience El número de fechas de inicio para esperar antes de finalizar la capacitación si no se realiza ninguna mejora en la métrica relevante. Si ha proporcionado un valor para binary_classifier_model_selection_criteria. la métrica es dicho valor. De lo contrario, la métrica es la misma que el valor especificado para el hiperparámetro loss.

La métrica se evalúa en los datos de validación. Si no ha proporcionado datos de validación, la métrica siempre la misma que el valor especificado para el hiperparámetro loss y se evalúa en los datos de capacitación. Para deshabilitar la parada precoz, establezca early_stopping_patience en un valor mayor que el valor especificado para epochs.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 3

early_stopping_tolerance

Tolerancia relativa para medir una mejora en la pérdida. Si la proporción de la mejora en la pérdida dividida por la mejor pérdida anterior es inferior a este valor, la detención precoz considera que la mejora es cero.

Opcional

Valores válidos: Entero positivo de punto flotante

Valor predeterminado: 0.001

epochs

Número máximo de iteraciones en los datos de capacitación.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 15

f_beta

El valor de beta que se ha de emplear al calcular las métricas de puntuación F para la clasificación binaria o de varias clases. También se utiliza si el valor definido para binary_classifier_model_selection_criteria es f_beta.

Opcional

Valores válidos: enteros positivos de punto flotante

Valor predeterminado: 1.0

feature_dim

El número de características en los datos de entrada.

Opcional

Valores válidos: auto o entero positivo

Valores predeterminados: auto

huber_delta

El parámetro de pérdida de Huber. Durante la evaluación métrica y de capacitación, compute la pérdida L2 de errores inferiores a delata y de pérdida L1 de errores superiores a delta.

Opcional

Valores válidos: Entero positivo de punto flotante

Valor predeterminado: 1.0

init_bias

Ponderación inicial para el plazo de sesgo.

Opcional

Valores válidos: Entero de punto flotante

Valor predeterminado: 0

init_method

Establece la función de distribución inicial que se utiliza para ponderaciones de modelo. Las funciones incluyen:

  • uniform: distribuido uniformemente entre (-escala, +escala).

  • normal: distribución normal, con media 0 y sigma.

Opcional

Valores válidos: uniform o normal

Valor predeterminado: uniform

init_scale

Escala una distribución uniforme para ponderaciones de modelo. Se aplica solo cuando se establece el hiperparámetro init_method en uniform.

Opcional

Valores válidos: Entero positivo de punto flotante

Valor predeterminado: 0.07

init_sigma

La desviación estándar inicial para la distribución normal. Se aplica solo cuando se establece el hiperparámetro init_method en normal.

Opcional

Valores válidos: Entero positivo de punto flotante

Valor predeterminado: 0.01

l1

El parámetro de regularización de L1. Si no desea utilizar la regularización de L1, establezca el valor en 0.

Opcional

Valores válidos: auto o número flotante no negativo

Valor predeterminado: auto

learning_rate

El tamaño del paso usado por el optimizador para actualizaciones de parámetros.

Opcional

Valores válidos: auto o entero positivo de punto flotante

Valor predeterminado: auto, cuyo valor depende del optimizador elegido.

loss

Especifica la función de pérdida.

Las funciones de pérdida disponibles y sus valores predeterminados dependen del valor de predictor_type:

  • Si la predictor_type se establece en regressor, las opciones disponibles son auto, squared_loss, absolute_loss, eps_insensitive_squared_loss, eps_insensitive_absolute_loss, quantile_loss y huber_loss. El valor predeterminado de auto es squared_loss.

  • Si la predictor_type se establece en binary_classifier, las opciones disponibles son auto, logistic y hinge_loss. El valor predeterminado de auto es logistic.

  • Si la predictor_type se establece en multiclass_classifier, las opciones disponibles son auto y softmax_loss. El valor predeterminado de auto es softmax_loss.

Valores válidos: auto, logistic, squared_loss, absolute_loss, hinge_loss, eps_insensitive_squared_loss, eps_insensitive_absolute_loss, quantile_loss o huber_loss

Opcional

Valor predeterminado: auto

loss_insensitivity

El parámetro para el tipo de pérdida epsilon-insensible. Durante la evaluación métrica y de capacitación, cualquier error inferior a este valor se considera cero.

Opcional

Valores válidos: Entero positivo de punto flotante

Valor predeterminado: 0.01

lr_scheduler_factor

Para cada hiperparámetro lr_scheduler_step, la tasa de aprendizaje disminuye en esta cantidad. Se aplica solo cuando se establece el hiperparámetro use_lr_scheduler en true.

Opcional

Valores válidos: auto o positivo de punto flotante comprendido entre 0 y 1

Valor predeterminado: auto

lr_scheduler_minimum_lr

La tasa de aprendizaje nunca disminuye a un valor inferior al valor establecido para lr_scheduler_minimum_lr. Se aplica solo cuando se establece el hiperparámetro use_lr_scheduler en true.

Opcional

Valores válidos: auto o entero positivo de punto flotante

Valores predeterminados: auto

lr_scheduler_step

El número de pasos entre disminuciones de la tasa de aprendizaje. Se aplica solo cuando se establece el hiperparámetro use_lr_scheduler en true.

Opcional

Valores válidos: auto o entero positivo

Valor predeterminado: auto

margin

El margen para la función hinge_loss.

Opcional

Valores válidos: Entero positivo de punto flotante

Valor predeterminado: 1.0

mini_batch_size

El número de observaciones por minilote para el iterador de datos.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 1000

momentum

El impulso del optimizador sgd.

Opcional

Valores válidos: auto o un entero de punto flotante comprendido entre 0 y 1,0

Valor predeterminado: auto

normalize_data

Normaliza los datos de la característica antes de la capacitación. La normalización de los datos convierte los datos de cada característica para que tengan una media de cero y los escala para que tenga la desviación estándar de la unidad.

Opcional

Valores válidos: auto, true o false

Valor predeterminado: true

normalize_label

Normaliza la etiqueta. La normalización de las etiquetas cambia la etiqueta para que tenga una media de cero y la escala para que tenga la desviación estándar de la unidad.

El valor auto predeterminado normaliza la etiqueta para problemas de regresión, pero no para problemas de clasificación. Si establece el hiperparámetro normalize_label en true para problemas de clasificación, el algoritmo hace caso omiso de él.

Opcional

Valores válidos: auto, true o false

Valor predeterminado: auto

num_calibration_samples

Número de observaciones del conjunto de datos de validación para usar en la calibración de modelo (cuando se encuentra el mejor umbral).

Opcional

Valores válidos: auto o entero positivo

Valor predeterminado: auto

num_models

Número de modelos para capacitación en paralelo. Para el valor predeterminado, auto, el algoritmo decide el número de modelos en paralelo a capacitar. Se realiza la capacitación de un modelo según el parámetro de capacitación determinado (regularización, optimizador y pérdida) y el resto mediante parámetros cerrados.

Opcional

Valores válidos: auto o entero positivo

Valores predeterminados: auto

num_point_for_scaler

El número de puntos de datos a usar para calcular la normalización o para establecer plazos sin sesgo.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 10,000

optimizer

El algoritmo de optimización que se va a utilizar.

Opcional

Valores válidos:

  • auto: el valor predeterminado.

  • sgd: descenso de gradiente estocástico.

  • adam: estimación de momento adaptativa.

  • rmsprop: una técnica de optimización basada en gradientes que utiliza una media móvil de gradientes cuadrados para normalizar el gradiente.

Valor predeterminado: auto. El ajuste predeterminado de auto es adam.

positive_example_weight_mult

La ponderación asignada a ejemplos positivos cuando se capacita un clasificador binario. La ponderación de los ejemplos negativos se fija en 1. Si desea que el algoritmo elija una ponderación de manera que los errores en los ejemplos de clasificación negativos frente a positivos tenga el mismo impacto en la pérdida de capacitación, especifique balanced. Si desea que el algoritmo elija la ponderación que optimice el rendimiento, especifique auto.

Opcional

Valores válidos: balanced, auto o un entero positivo de punto flotante

Valor predeterminado: 1.0

quantile

El cuantil para pérdida de cuantil. Para el cuantil q, el modelo intenta producir predicciones de modo que el valor de true_label sea mayor que la predicción con probabilidad q.

Opcional

Valores válidos: entero de punto flotante comprendido entre 0 y 1

Valor predeterminado: 0.5

target_precision

La precisión de destino. Si binary_classifier_model_selection_criteria tiene el valor recall_at_target_precision, entonces se mantiene precisión en este valor al mismo tiempo que se optimiza rellamada.

Opcional

Valores válidos: Entero de punto flotante comprendido entre 0 y 1,0

Valor predeterminado: 0.8

target_recall

La rellamada de destino. Si binary_classifier_model_selection_criteria tiene el valor precision_at_target_recall, entonces se mantiene rellamada en este valor al mismo tiempo que se optimiza precisión.

Opcional

Valores válidos: Entero de punto flotante comprendido entre 0 y 1,0

Valor predeterminado: 0.8

unbias_data

Establece las características sin sesgo antes de la capacitación de modo que la media sea 0. De forma predeterminada, los datos no están sesgados si el hiperparámetro use_bias se establece en true.

Opcional

Valores válidos: auto, true o false

Valor predeterminado: auto

unbias_label

Establece las etiquetas sin sesgo antes de la capacitación de modo que la media sea 0. Se aplica a la regresión solo si el use_bias hiperparámetro se establece en true.

Opcional

Valores válidos: auto, true o false

Valor predeterminado: auto

use_bias

Especifica si el modelo debe incluir un término de sesgo, que es el término interceptar en la ecuación lineal.

Opcional

Valores válidos: true o false

Valor predeterminado: true

use_lr_scheduler

Cuándo usar un programador para la tasa de aprendizaje. Si desea utilizar un programador, especifique true.

Opcional

Valores válidos: true o false

Valor predeterminado: true

wd

El parámetro de degradación de ponderación, que también se conoce como parámetro de regularización de L2. Si no desea utilizar la regularización de L2, establezca el valor en 0.

Opcional

Valores válidos: auto o entero no negativo de punto flotante

Valor predeterminado: auto