Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
CatBoost hiperparámetros
La siguiente tabla contiene el subconjunto de hiperparámetros que se requieren o se utilizan con más frecuencia para el algoritmo de Amazon SageMaker CatBoost . Los usuarios establecen estos parámetros para facilitar la estimación de los parámetros del modelo a partir de los datos. El SageMaker CatBoost algoritmo es una implementación del paquete de código abierto CatBoost
nota
Los hiperparámetros predeterminados se basan en conjuntos de datos de ejemplo de CatBoost cuadernos de muestra.
De forma predeterminada, el SageMaker CatBoost algoritmo elige automáticamente una métrica de evaluación y una función de pérdida en función del tipo de problema de clasificación. El CatBoost algoritmo detecta el tipo de problema de clasificación en función del número de etiquetas de los datos. Para los problemas de regresión, las funciones de pérdida y métrica de evaluación son la raíz del error cuadrático medio. Para los problemas de clasificación binaria, la métrica de evaluación es el área bajo la curva (AUC) y la función de pérdida es la pérdida logarítmica. Para los problemas de clasificación multiclase, la métrica de evaluación y las funciones de pérdida son la entropía cruzada multiclase. Puede usar el hiperparámetro eval_metric
para cambiar la métrica de evaluación predeterminada. Consulte la siguiente tabla para obtener más información sobre GBM los hiperparámetros de la luz, incluidas las descripciones, los valores válidos y los valores predeterminados.
Nombre del parámetro | Descripción |
---|---|
iterations |
La cantidad máxima de árboles que se puede construir. Valores válidos: entero positivo. Valor predeterminado: |
early_stopping_rounds |
El entrenamiento se detendrá si una métrica de un punto de datos de validación no mejora en la última ronda Valores válidos: número entero Valor predeterminado: |
eval_metric |
Métricas de evaluación de los datos de validación. Si
Valores válidos: cadena; consulte la CatBoost documentación para ver Valor predeterminado: |
learning_rate |
La velocidad a la que se actualizan los pesos del modelo después de pasar por cada lote de ejemplos de entrenamiento. Valores válidos: flotante, rango ( Valor predeterminado: |
depth |
Profundidad del árbol. Valores válidos: entero, rango ( Valor predeterminado: |
l2_leaf_reg |
Coeficiente del término de regularización L2 de la función de coste. Valores válidos: entero positivo. Valor predeterminado: |
random_strength |
La cantidad de asignación al azar que se utilizará para puntuar las divisiones cuando se selecciona la estructura de árbol. Utilice este parámetro para evitar sobreajustar el modelo. Valores válidos: flotante, rango (número de coma flotante positivo). Valor predeterminado: |
max_leaves |
El número máximo de hojas en el árbol resultante. Solo se puede usar con la política de cultivo Valores válidos: entero, rango [ Valor predeterminado: |
rsm |
Método de subespacio aleatorio. El porcentaje de características que se van a utilizar en cada selección dividida cuando las características se vuelven a seleccionar de forma aleatoria. Valores válidos: flotante, rango ( Valor predeterminado: |
sampling_frequency |
Frecuencia con la que tomar muestras de ponderaciones y objetos al construir árboles. Valores válidos: cadena ( Valor predeterminado: |
min_data_in_leaf |
El número mínimo de muestras de entrenamiento en una hoja. CatBoost no busca nuevas divisiones en las hojas con un recuento de muestras inferior al valor especificado. Solo se puede usar con las políticas de cultivo Valores válidos: entero, rango ( Valor predeterminado: |
bagging_temperature |
Define la configuración del arranque bayesiano. Use el arranque bayesiano para asignar ponderaciones aleatorias a los objetos. Si Valores válidos: número flotante no negativo. Valor predeterminado: |
boosting_type |
El esquema de potenciación. “Automático” significa que Valores válidos: cadena ( Valor predeterminado: |
scale_pos_weight |
La ponderación de la clase positiva en la clasificación binaria. El valor se utiliza como multiplicador de las ponderaciones de los objetos de clase positiva. Valores válidos: número flotante positivo. Valor predeterminado: |
max_bin |
El número de divisiones de las características numéricas. Valores válidos: cadena ( Valor predeterminado: |
grow_policy |
Política de cultivo de árboles. Define cómo llevar a cabo una construcción ambiciosa de árboles. Valores válidos: cadena ( Valor predeterminado: |
random_seed |
La semilla aleatoria utilizada para el entrenamiento. Valores válidos: número entero no negativo. Valor predeterminado: |
thread_count |
La cantidad de subprocesos que se va a utilizar durante el entrenamiento. Si Valores válidos: un número entero ( Valor predeterminado: |
verbose |
La verbosidad de los mensajes de impresión; los niveles más altos corresponden a declaraciones de impresión más detalladas. Valores válidos: entero positivo. Valor predeterminado: |