Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Algoritmo de análisis de componentes principales (PCA)
PCAes un algoritmo de aprendizaje automático no supervisado que intenta reducir la dimensionalidad (número de características) de un conjunto de datos y, al mismo tiempo, conservar la mayor cantidad de información posible. Esto se realiza buscando un nuevo conjunto de características denominado componentes, que son los compuestos de las características originales que no son correlativas entre sí. También están limitadas, por lo que el primer componente implica la máxima variabilidad posible en los datos y el segundo componente la segunda variabilidad máxima y así sucesivamente.
En Amazon SageMaker, PCA funciona en dos modos, según el escenario:
-
normal: para conjuntos de datos con datos dispersos y un número moderado de observaciones y características.
-
aleatorio: para conjuntos de datos con un gran número de observaciones y características. Este modo utiliza un algoritmo de aproximación.
PCAutiliza datos tabulares.
Las filas representan las observaciones que desea incrustar en un espacio dimensional inferior. Las columnas representan las características para las que desea buscar una aproximación reducida. El algoritmo calcula la matriz de covarianza (o una aproximación de la misma de manera distribuida) y, a continuación, realiza la descomposición del valor singular en este resumen para producir los componentes principales.
Temas
Interfaz de entrada/salida para el algoritmo PCA
Para el entrenamiento, PCA espera los datos proporcionados en el canal del tren y, opcionalmente, admite un conjunto de datos que se pasa al conjunto de datos de prueba, que se puntúa con el algoritmo final. Tanto el formato recordIO-wrapped-protobuf
como CSV
son compatibles con la capacitación. Puede usar el modo de archivo o el modo de canalización para capacitar modelos con datos con formato recordIO-wrapped-protobuf
o CSV
.
A modo de inferencia text/csv
application/json
, PCA apoya yapplication/x-recordio-protobuf
. Los resultados se devuelven en formato application/json
o application/x-recordio-protobuf
con un vector de "proyecciones".
Para obtener más información sobre los formatos de archivo de entrada y salida, consulte PCAFormatos de respuesta para inferencia y Blocs de notas de muestra de PCA.
EC2Recomendación de instancia para el algoritmo PCA
PCAsoportes CPU e GPU instancias para el entrenamiento y la inferencia. El tipo de instancia con un mayor desempeño depende en gran medida de los detalles de los datos de entrada. Por ejemploGPU, PCA es compatible con P2, P3, G4dn y G5.
Blocs de notas de muestra de PCA
Para ver un ejemplo de cuaderno que muestra cómo usar el algoritmo de análisis de componentes SageMaker principales para analizar las imágenes de dígitos manuscritos del cero al nueve en el MNIST conjunto de datos, consulte Introducción a with. PCA MNIST