AutoGluon-Hiperparámetros tabulares - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AutoGluon-Hiperparámetros tabulares

La siguiente tabla contiene el subconjunto de hiperparámetros que se requieren o se utilizan con más frecuencia para el algoritmo Amazon SageMaker AutoGluon -Tabular. Los usuarios establecen estos parámetros para facilitar la estimación de los parámetros del modelo a partir de los datos. El algoritmo SageMaker AutoGluon -Tabular es una implementación del paquete -Tabular de código abierto. AutoGluon

nota

Los hiperparámetros predeterminados se basan en conjuntos de datos de ejemplo de AutoGluon-Ejemplos de cuadernos tabulares.

De forma predeterminada, el algoritmo SageMaker AutoGluon -Tabular elige automáticamente una métrica de evaluación en función del tipo de problema de clasificación. El algoritmo AutoGluon-Tabular detecta el tipo de problema de clasificación a partir del número de etiquetas en los datos. Para los problemas de regresión, la métrica de evaluación es la raíz del error cuadrático medio. Para los problemas de clasificación binaria, la métrica de evaluación es el área por debajo de la curva característica operativa del receptor ()AUC. Para los problemas de clasificación multiclase, la métrica de evaluación es la precisión. Puede usar el hiperparámetro eval_metric para cambiar la métrica de evaluación predeterminada. Consulte la siguiente tabla para obtener más información sobre los hiperparámetros AutoGluon tabulares, incluidas las descripciones, los valores válidos y los valores predeterminados.

Nombre del parámetro Descripción
eval_metric

Métricas de evaluación de los datos de validación. Si eval_metric se establece en el valor "auto" predeterminado, el algoritmo elige automáticamente una métrica de evaluación en función del tipo de problema de clasificación:

  • "root_mean_squared_error" para la regresión

  • "roc_auc" para la clasificación binaria

  • "accuracy" para la clasificación multiclase

Valores válidos: cadena; consulte la AutoGluon documentación para ver los valores válidos.

Valor predeterminado: "auto".

presets

Lista de configuraciones predefinidas para varios argumentos en fit().

  • "best_quality": alta precisión predictiva, tiempos de inferencia más lentos y mayor uso del disco

  • "high_quality": alta precisión predictiva e inferencia rápida

  • "good_quality": alta precisión predictiva e inferencia rápida

  • "medium_quality": precisión predictiva media, inferencia y tiempo de entrenamiento muy rápidos

  • "optimize_for_deployment": eliminar los modelos no utilizados y eliminar los artefactos de entrenamiento

  • "interpretable": solo para modelos interpretables y basados en reglas en el paquete imodels

Para obtener más información, consulte AutoGluon Predictores.

Valores válidos: cadena (cualquiera de "best_quality", "high_quality", good_quality", "medium_quality", "optimize_for_deployment" o or "interpretable").

Valor predeterminado: "medium_quality".

auto_stack

Si AutoGluon debería utilizar automáticamente el empaquetado y el ensamblaje de pilas multicapa para aumentar la precisión predictiva. Configure auto_stack en "True" si está dispuesto a tolerar tiempos de entrenamiento más largos para maximizar la precisión predictiva. Esto establece automáticamente los argumentos num_bag_folds y num_stack_levels en función de las propiedades del conjunto de datos.

Valores válidos: cadena, "True" o "False".

Valor predeterminado: "False".

num_bag_folds

Número de particiones utilizadas para el bagging de los modelos. Cuando num_bag_folds es igual a k, el tiempo de entrenamiento se incrementa aproximadamente en un factor de k. Ponga num_bag_folds a 0 para desactivar el bagging. Esta opción está desactivada de forma predeterminada, pero recomendamos utilizar valores de entre 5 y 10 para maximizar el rendimiento predictivo. El aumento de num_bag_folds da como resultado modelos con un sesgo más bajo, pero que son más propensos a sobreajustarse. 1 es un valor no válido para este parámetro y generará un ValueError. Los valores superiores a 10 pueden producir rendimientos decrecientes e incluso pueden influir negativamente en los resultados generales debido al sobreajuste. Para mejorar aún más las predicciones, evite aumentar num_bag_folds; en su lugar, aumente num_bag_sets.

Valores válidos: cadena, cualquier número entero entre "0" y "10" (ambos incluidos).

Valor predeterminado: "0".

num_bag_sets

Número de repeticiones del bagging de kfold que se van a realizar (los valores deben ser mayores o iguales a 1). El número total de modelos entrenados durante el bagging es igual a num_bag_folds * num_bag_sets. El valor predeterminado de este parámetro es 1 si no se especifica time_limit. Este parámetro está deshabilitado si no se especifica num_bag_folds. Los valores superiores a 1 dan como resultado un rendimiento predictivo superior, especialmente en problemas más pequeños y con el apilamiento activado.

Valores válidos: entero, rango [1, 20].

Valor predeterminado: 1.

num_stack_levels

Número de niveles de apilamiento que se van a utilizar en el conjunto de pilas. Aumenta aproximadamente el tiempo de entrenamiento del modelo en un factor de num_stack_levels + 1. Establezca este parámetro en 0 para desactivar el ensamblado de pilas. Este parámetro está desactivado de forma predeterminada, pero recomendamos utilizar valores de entre 1 y 3 para maximizar el rendimiento predictivo. Para evitar un sobreajuste y un ValueError, num_bag_folds debe ser mayor o igual a 2.

Valores válidos: flotante, con el rango [0, 3].

Valor predeterminado: 0.

refit_full

Si se deben volver a entrenar o no todos los modelos con todos los datos (entrenamiento y validación) tras el procedimiento de entrenamiento normal. Para obtener más información, consulte Predictores. AutoGluon

Valores válidos: cadena, "True" o "False".

Valor predeterminado: "False".

set_best_to_refit_full

Si se debe cambiar o no el modelo predeterminado que el predictor utiliza para la predicción. Si set_best_to_refit_full se establece en "True", el modelo predeterminado cambia al modelo que presentó la puntuación de validación más alta como resultado del reajuste (activado por refit_full). Solo es válido si refit_full está establecido.

Valores válidos: cadena, "True" o "False".

Valor predeterminado: "False".

save_space

Si se debe reducir la memoria y el tamaño del disco del predictor mediante la eliminación de los archivos de modelo auxiliares que no son necesarios para la predicción de datos nuevos. Esto no afecta a la precisión de las inferencias. Recomendamos establecer save_space en "True" si el único objetivo es utilizar el modelo entrenado para la predicción. Es posible que algunas funciones avanzadas ya no estén disponibles si save_space se establece en "True". Consulte la documentación de predictor.save_space() para obtener más información.

Valores válidos: cadena, "True" o "False".

Valor predeterminado: "False".

verbosity

La verbosidad de los mensajes de impresión. Los niveles de verbosity van de 0 a 4, y los niveles más altos corresponden a declaraciones de impresión más detalladas. Una verbosity de 0 suprime las advertencias.

Valores válidos: entero (0, 1, 2, 3 o 4).

Valor predeterminado: 2.