Ajuste de un modelo k-Means - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ajuste de un modelo k-Means

El ajuste de modelo automático, también conocido como ajuste de hiperparámetros, encuentra la mejor versión de un modelo ejecutando muchas tareas que probar una serie de hiperparámetros en su conjunto de datos. Usted elige los hiperparámetros que pueden ajustarse, un rango de valores para cada uno de ellos y una métrica objetiva. Puede elegir la métrica objetiva de las métricas que el algoritmo computa. El ajuste de modelo automático busca los hiperparámetros elegidos para encontrar la combinación de valores que obtienen el modelo que optimiza la métrica objetiva.

El algoritmo SageMaker k-means de Amazon es un algoritmo no supervisado que agrupa los datos en clústeres cuyos miembros son lo más similares posible. Dado que no es supervisado, no utiliza un conjunto de datos de validación contra el que se puedan optimizar hiperparámetros. No obstante, toma un conjunto de datos de prueba y emite métricas que dependen de la distancia cuadrática entre los puntos de datos y los centroides del clúster final al término de cada ejecución de capacitación. Para encontrar el modelo que notifica los clústeres más ajustados en el conjunto de datos de prueba, puede utilizar un trabajo de ajuste de hiperparámetro. Los clústeres optimizan la similitud de sus miembros.

Para obtener más información acerca del ajuste de modelos, consulte Realice un ajuste automático del modelo con SageMaker.

Las métricas computadas por el Algoritmo K-Means

El algoritmo k-means calcula las siguientes métricas durante la capacitación. Al ajustar un modelo, elija una de estas métricas como la métrica objetiva.

Nombre de métrica Descripción Dirección de optimización
test:msd

Distancias cuadráticas medias entre cada registro en el conjunto de prueba y el centro más cercano del modelo.

Minimizar

test:ssd

Suma de las distancias cuadráticas medias entre cada registro en el conjunto de prueba y el centro más cercano del modelo.

Minimizar

Hiperparámetros ajustables de k-Means

Ajuste el modelo SageMaker k-means de Amazon con los siguientes hiperparámetros. Los hiperparámetros con el mayor impacto en métricas objetivas de k-means son mini_batch_size, extra_center_factor e init_method. El ajuste del hiperparámetro epochs suele dar lugar a mejoras secundarias.

Nombre del parámetro Tipo de parámetro Intervalos recomendados
epochs

IntegerParameterIntervalos

MinValue: 1, :10 MaxValue

extra_center_factor

IntegerParameterRangos

MinValue: 4, :10 MaxValue

init_method

CategoricalParameterRangos

['kmeans++', 'random']

mini_batch_size

IntegerParameterRangos

MinValue: 3000,: 15000 MaxValue