Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
SageMaker Algoritmos integrados para datos tabulares
Amazon SageMaker proporciona algoritmos integrados que se adaptan al análisis de datos tabulares. Los datos tabulares son conjuntos de datos organizados en tablas compuestas por filas (observaciones) y columnas (características). SageMaker Los algoritmos integrados para datos tabulares se pueden utilizar para problemas de clasificación o regresión.
-
AutoGluon-Tabular: un marco AutoML de código abierto que funciona ensamblando modelos y apilándolos en varias capas.
-
CatBoost: una implementación del algoritmo de árboles potenciados por gradientes, con una potenciación ordenada y un algoritmo innovador para procesar características categóricas.
-
Algoritmo de máquinas de factorización: una extensión de un modelo lineal que se ha diseñado para capturar de manera económica las interacciones entre características dentro de conjuntos de datos dispersos y de grandes dimensiones.
-
Algoritmo k vecinos más próximos (k-NN) (K-Nearest Neighbors): un método no paramétrico que utiliza los k puntos etiquetados más cercanos para asignarle una etiqueta a un nuevo punto de datos (para la clasificación), o un valor objetivo previsto a partir de la media de los k puntos más cercanos (para la regresión).
-
Luz GBM: una implementación del algoritmo de árboles potenciados por gradiente que añade dos técnicas novedosas para mejorar la eficiencia y la escalabilidad; el muestreo unilateral basado en gradientes (GOSS) y la agrupación de características exclusivas (EFB).
-
Algoritmo de aprendizaje lineal: aprende una función lineal para la regresión o una función de umbral lineal para la clasificación.
-
TabTransformer—una novedosa arquitectura de modelado profundo de datos tabulares basada en self-attention-based Transformers.
-
XGBoostalgoritmo con Amazon SageMaker: una implementación del algoritmo de árboles con potenciación por gradiente que combina un conjunto de estimaciones a partir de un conjunto de modelos más simples y débiles.
Nombre de algoritmo | Nombre de canal | Modo de entrada de capacitación | Tipo de archivo | Clase de instancia | Paralelizable |
---|---|---|---|---|---|
AutoGluon-Tabular | entrenamiento y validación (opcional) | Archivos | CSV | CPU o GPU (solo instancia única) | No |
CatBoost | entrenamiento y validación (opcional) | Archivos | CSV | CPU (solo instancia única) | No |
Máquinas de factorización | capacitación y prueba (opcional) | Archivo o canalización | recordIO-protobuf | CPU (GPU para datos densos) | Sí |
K-Nearest-Neighbors (k-NN) | capacitación y prueba (opcional) | Archivo o canalización | recordIO-protobuf o CSV | CPU o GPU (dispositivo de GPU único en una o varias instancias) | Sí |
LightGBM | entrenamiento y validación (opcional) | Archivos | CSV | CPU (solo instancia única) | No |
Aprendiz lineal | capacitación y validación (opcional), prueba o ambos | Archivo o canalización | recordIO-protobuf o CSV | CPU o GPU | Sí |
TabTransformer | entrenamiento y validación (opcional) | Archivos | CSV | CPU o GPU (solo instancia única) | No |
XGBoost (0.90-1, 0.90-2, 1.0-1, 1.2-1, 1.2-21) | capacitación y validación (opcional) | Archivo o canalización | CSV, LibSVM o Parquet | CPU (o GPU para 1.2-1) | Sí |