Use Amazon SageMaker Built-in Algorithms - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Use Amazon SageMaker Built-in Algorithms

Amazon SageMaker provides a suite of built-in algorithms to help data scientists and machine learning practitioners get started on training and deploying machine learning models quickly. For someone that is new to SageMaker, choosing the right algorithm for your particular use case can be a challenging task. The following table provides a quick cheat sheet that shows how you can start with an example problem or use case and find an appropriate built-in algorithm offered by SageMaker that is valid for that problem type. Additional guidance organized by learning paradigms (supervised and unsupervised) and important data domains (text and images) is provided in the sections following the table.

Table: Mapping use cases to built-in algorithms
Example problems and use cases Learning paradigm or domain Problem types Data input format Built-in algorithms

Predict if an item belongs to a category: an email spam filter

Capacitación supervisada

Binary/multi-class classification

Tabular

Algoritmo de máquinas de factorización, Algoritmo k vecinos más próximos (k-NN) (K-Nearest Neighbors), Algoritmo de aprendizaje lineal, Algoritmo XGBoost

Predict a numeric/continuous value: estimate the value of a house

Regresión

Tabular

Algoritmo de máquinas de factorización, Algoritmo k vecinos más próximos (k-NN) (K-Nearest Neighbors), Algoritmo de aprendizaje lineal, Algoritmo XGBoost

Based on historical data for a behavior, predict future behavior: predict sales on a new product based on previous sales data.

Time-series forecasting

Tabular

Algoritmo de previsión DeepAR

Improve the data embeddings of the high-dimensional objects: identify duplicate support tickets or find the correct routing based on similarity of text in the tickets

Embeddings: convert high-dimensional objects into low-dimensional space. Tabular Algoritmo Object2Vec

Drop those columns from a dataset that have a weak relation with the label/target variable: the color of a car when predicting its mileage.

Aprendizaje sin supervisión

Feature engineering: dimensionality reduction

Tabular

Algoritmo de análisis de componente principal (PCA)

Detect abnormal behavior in application: spot when an IoT sensor is sending abnormal readings

Detección de anomalías

Tabular

Algoritmo de bosque de corte aleatorio (RCF)

Protect your application from suspicious users: detect if an IP address accessing a service might be from a bad actor

IP anomaly detection

Tabular

Información de IP

Group similar objects/data together: find high-, medium-, and low-spending customers from their transaction histories

Agrupación o agrupación

Tabular

Algoritmo k-means

Organizar un conjunto de documentos en temas (no conocidos de antemano): etiquetar un documento como perteneciente a una categoría médica en función de los términos utilizados en el documento.

Modelado de temas

Texto

Algoritmo Asignación latente de Dirichlet (LDA), Algoritmo de Modelo de tema neuronal (NTM)

Asignar categorías predefinidas a documentos en un corpus: clasificar libros de una biblioteca en disciplinas académicas

Análisis textual

Clasificación de textos

Texto

Algoritmo BlazingText

Convertir texto de un idioma a otro: Español a Inglés

Traducción automática

Algoritmo de
Texto

Algoritmo de secuencia a secuencia

Resumir un corpus de texto largo: un resumen para un trabajo de investigación

Resumen del texto

Texto

Algoritmo de secuencia a secuencia

Convertir archivos de audio en texto: transcribir conversaciones del centro de llamadas para un análisis más detallado

Discurso a texto

Texto

Algoritmo de secuencia a secuencia

Etiquetar/etiquetar una imagen basada en el contenido de la imagen: alertas sobre el contenido para adultos en una imagen

Gema Image Processing

Clasificación de imágenes y etiquetas múltiples

Imagen

Algoritmo de clasificación de imágenes

Detectar personas y objetos en una imagen: la policía revisa una gran galería de fotos para una persona desaparecida

Detección y clasificación de objetos

Imagen

Algoritmo de detección de objetos

Etiquetar cada píxel de una imagen individualmente con una categoría: los coches autoconducidos se preparan para identificar objetos en su camino

Visión artificial

Imagen

Algoritmo de segmentación semántica

Para obtener información importante sobre las rutas de registro Docker, los formatos de datos, los tipos de instancias de Amazon EC2 reanudados y los registros de CloudWatch comunes a todos los algoritmos integrados proporcionados por SageMaker, consulteInformación común sobre algoritmos integrados.

Las siguientes secciones proporcionan orientación adicional para los algoritmos integrados de Amazon SageMaker agrupados por los paradigmas de aprendizaje supervisados y no supervisados a los que pertenecen. Para obtener descripciones de estos paradigmas de aprendizaje y sus tipos de problemas asociados, consulteElegir un algoritmo. También se proporcionan secciones para los algoritmos incorporados de SageMaker disponibles para abordar dos dominios importantes de aprendizaje automático: análisis textual y procesamiento de imágenes.

Capacitación supervisada

Amazon SageMaker proporciona varios algoritmos de propósito general integrados que se pueden utilizar para problemas de clasificación o regresión.

  • Algoritmo de aprendizaje lineal: aprende una función lineal para la regresión o una función de umbral lineal para la clasificación.

  • Algoritmo de máquinas de factorización: una extensión de un modelo lineal que se ha diseñado para capturar de forma económica interacciones entre características dentro de conjuntos de datos dispersos de grandes dimensiones.

  • Algoritmo XGBoost—implementación del algoritmo de árboles potenciados por gradientes que combina un conjunto de estimaciones a partir de un conjunto de modelos más simples y más débiles.

  • Algoritmo k vecinos más próximos (k-NN) (K-Nearest Neighbors): un método no paramétrico que utiliza los k puntos etiquetados más cercanos para asignar una etiqueta a un nuevo punto de datos para la clasificación o un valor objetivo previsto a partir del promedio de los k puntos más cercanos para la regresión.

Amazon SageMaker también proporciona varios algoritmos de aprendizaje supervisado integrados que se utilizan para tareas más especializadas durante la ingeniería de características y la previsión de datos de series temporales.

  • Algoritmo Object2Vec, un nuevo algoritmo multipropósito altamente personalizable utilizado para la ingeniería de características. Puede aprender integraciones densas de baja dimensionalidad de objetos de alta dimensionalidad para producir características que mejoran la eficiencia de capacitación de modelos descendentes. Si bien este es un algoritmo supervisado, ya que requiere datos etiquetados para el entrenamiento, hay muchos escenarios en los que las etiquetas de relación se pueden obtener puramente a partir de agrupaciones naturales en datos, sin ninguna anotación humana explícita.

  • Algoritmo de previsión DeepAR—un algoritmo de aprendizaje supervisado para las series temporales (monodimensionales) escalares de previsión que utilizan redes neuronales recurrentes (RNN).

Aprendizaje sin supervisión

Amazon SageMaker proporciona varios algoritmos integrados que se pueden utilizar para una variedad de tareas de aprendizaje no supervisadas, como la agrupación en clústeres, la reducción de dimensiones, el reconocimiento de patrones y la detección de anomalías.

  • Algoritmo de análisis de componente principal (PCA): reduce la dimensionalidad (número de entidades) dentro de un conjunto de datos proyectando puntos de datos en los primeros componentes principales. El objetivo es conservar la mayor cantidad de información o variación posible. Para los matemáticos, los componentes principales son vectores propios de la matriz de covarianza de los datos.

  • Algoritmo k-means: encuentra agrupaciones discretas dentro de datos, en las que los miembros de un grupo son lo más parecido posible que otro y lo más diferente posible de los miembros de otros grupos.

  • Información de IP: aprende los patrones de uso de direcciones IPv4. Está diseñado para capturar asociaciones entre las direcciones IPv4 y diversas entidades, como ID de usuario o números de cuenta.

  • Algoritmo de bosque de corte aleatorio (RCF): detecta puntos de datos anómalos dentro de un conjunto de datos que difieren de los datos bien estructurados y con patrones.

Análisis textual

SageMaker proporciona algoritmos adaptados al análisis de documentos textuales utilizados en el procesamiento de lenguaje natural, clasificación o resumen de documentos, modelado o clasificación de temas, y transcripción o traducción de idiomas.

  • Algoritmo BlazingText: una implementación muy optimizada de los algoritmos de clasificación de textos y Word2vec que se escalan fácilmente a grandes conjuntos de datos. Es útil para muchas tareas de procesamiento de lenguaje natural (NLP).

  • Algoritmo de secuencia a secuencia: un algoritmo supervisado comúnmente utilizado para la traducción automática neuronal

  • Algoritmo Asignación latente de Dirichlet (LDA): un algoritmo adecuado para determinar temas en un conjunto de documentos. Se trata de un algoritmo no supervisado, lo que significa que no utiliza datos de ejemplo con respuestas durante la capacitación.

  • Algoritmo de Modelo de tema neuronal (NTM): otra técnica sin supervisar para la determinación de temas en un conjunto de documentos mediante un enfoque de redes neuronales.

Gema Image Processing

SageMaker también proporciona algoritmos de procesamiento de imágenes que se utilizan para la clasificación de imágenes, la detección de objetos y la visión por computadora.

  • Algoritmo de clasificación de imágenes: utiliza datos de ejemplo con respuestas (se denominaAlgoritmo supervisado). Utilice este algoritmo para clasificar imágenes.

  • Algoritmo de segmentación semántica: proporciona un enfoque de nivel de píxel detallado para desarrollar aplicaciones de visión artificial.

  • Algoritmo de detección de objetos: detecta y clasifica objetos en imágenes mediante una única red neuronal profunda. Es un algoritmo de aprendizaje supervisado que toma como entrada e identifica todas las instancias de objetos dentro de la escena de una imagen.