Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Algoritmo k-means
k-means es un algoritmo de aprendizaje sin supervisar. Si intenta buscar agrupaciones discretas dentro de datos, en las que los miembros de un grupo son lo más parecido posible que otro y lo más diferente posible de los miembros de otros grupos. Puede definir los atributos que quiera que el algoritmo utilice para determinar la similaridad.
Amazon SageMaker utiliza una versión modificada del algoritmo de agrupamiento k-means a escala web. En comparación con la versión original del algoritmo, la versión utilizada por Amazon SageMaker es más precisa. Al igual que el algoritmo original, se escala a los conjuntos de datos masivos y ofrece mejoras en tiempo de capacitación. Para ello, la versión utilizada por Amazon SageMaker transmite minilotes (subconjuntos pequeños y aleatorios) de los datos de entrenamiento. Para obtener más información sobre k-means de minilotes, consulte Web-scale k-means Clustering
El algoritmo k-means espera datos tabulares, en los que las filas representan las observaciones que desea en el clúster y las columnas los atributos de las observaciones. Los atributos n de cada fila representan un punto en el espacio dimensional n. La distancia euclidiana entre estos puntos representa la similaridad de las observaciones correspondientes. El algoritmo agrupa las observaciones con los valores de atributos similares (los puntos correspondientes a estas observaciones están más próximos). Para obtener más información sobre cómo funciona k-means en Amazon SageMaker, consulteFuncionamiento de la agrupación en clústeres de k-means.
Temas
Interfaz de entrada/salida para el algoritmo k-Means
Para capacitación, el algoritmo k-means espera que se proporcionen datos en el canal capacitación (recomendado S3DataDistributionType=ShardedByS3Key
), con un canal de prueba opcional (recomendado S3DataDistributionType=FullyReplicated
) en el que puntuar los datos. Tanto el formato recordIO-wrapped-protobuf
como CSV
son compatibles con la capacitación. Puede usar el modo de archivo o el modo de canalización para capacitar modelos con datos con formato recordIO-wrapped-protobuf
o CSV
.
Para la inferencia, se admite text/csv
, application/json
y application/x-recordio-protobuf
. k-means devuelve una closest_cluster
etiqueta y distance_to_cluster
para cada observación.
Para obtener más información sobre los formatos de archivo de entrada y salida, consulte Formatos de respuesta de k-means para inferencia y Cuadernos de ejemplo de K-Means. El algoritmo k-means no es compatible con la capacitación de varias instancias, en la que el conjunto de capacitación se compone de “bolsas” etiquetadas, cada una de las cuales es un conjunto de instancias sin etiquetar.
Recomendación de instancia EC2 para el algoritmo k-Means
Recomendamos k-means de capacitación en las instancias de la CPU. Puede realizar el entrenamiento en las instancias de la GPU, pero debe limitar el entrenamiento con GPU a las instancias de una GPU (como ml.g4dn.xlarge), ya que solo se utiliza una GPU por instancia. El algoritmo K-Means admite las instancias P2, P3, G4dn y G5 para el entrenamiento y la inferencia.
Cuadernos de ejemplo de K-Means
Para ver un ejemplo de cuaderno que utiliza el algoritmo SageMaker K-means para segmentar la población de los condados de los Estados Unidos según los atributos identificados mediante el análisis de componentes principales, consulte Analizar los datos del censo estadounidense para la segmentación de la población mediante Amazon