Conjuntos profundos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conjuntos profundos

La idea central de la agrupación es que, al tener un comité de modelos, las diferentes fortalezas se complementarán entre sí y muchas debilidades se anularán entre sí. Esta es la intuición que guía el famoso teorema del jurado del matemático francés del siglo XVIII Nicolas de Condorcet (Estlund 1994): si cada miembro del jurado tiene una probabilidad superior al 50 % de llegar a un veredicto verdadero y si los miembros del jurado toman decisiones independientes, la probabilidad de un veredicto grupal correcto aumenta al 100 % a medida que aumenta el número de miembros del jurado.

Pasando a la historia reciente, el proceso de agrupación de modelos de aprendizaje automático incluye dos pasos: entrenar diferentes modelos y combinar las predicciones. Puede obtener diferentes modelos mediante el uso de diferentes subconjuntos de características, datos de entrenamiento, regímenes de entrenamiento y arquitecturas de modelos. Puede combinar las predicciones promediándolas, entrenando un nuevo modelo sobre las predicciones (apilamiento de modelos) o utilizando reglas de votación personalizadas que pueda ajustar a un contexto específico (consulte el estudio de caso para ver un ejemplo de ello). Dos de las técnicas iniciales de agrupación para machine learning son la estimulación (Freund y Schapire 1996) y los bosques aleatorios (Breiman 2001). Se trata de dos enfoques complementarios.

La idea detrás de la estimulación es capacitar secuencialmente a los alumnos más débiles. Cada modelo posterior se centra en un subconjunto de datos y se ve estimulado por los errores observados anteriormente durante el entrenamiento. De esta forma, cada árbol secuencial se basa en un nuevo conjunto de entrenamiento que no se había visto anteriormente. Al final del entrenamiento, se calcula el promedio de las predicciones entre los alumnos más débiles.

La idea que subyace a los bosques aleatorios consiste en entrenar varios modelos de árboles de decisión sin necesidad de recortar, a partir de muestras deducidas de los datos y seleccionando subconjuntos de características aleatorias. Breiman demostró que el error de generalización tiene un límite superior que es función del número y la descorrelación de los árboles individuales.

En el aprendizaje profundo, el abandono está diseñado como una técnica de regularización y también puede interpretarse como un conjunto de múltiples modelos (Srivastava et al. 2014). La constatación de que el abandono podía utilizarse para cuantificar eficazmente la incertidumbre (Gal y Ghahramani, 2016) motivó a seguir explorando los conjuntos de modelos de aprendizaje profundo con el mismo propósito. Se ha demostrado que los conjuntos profundos superan al MC dropout a la hora de cuantificar la incertidumbre en diversos conjuntos de datos y tareas de regresión y clasificación (Lakshminarayanan, Pritzel y Blundell 2017). Además, se ha demostrado que los conjuntos profundos son lo último en entornos fuera de distribución (como las perturbaciones de los datos o la introducción de nuevas clases que no se ven durante el entrenamiento). Superan al MC dropout y a otros métodos (Ovadia et al. 2019). La razón por la que los conjuntos profundos funcionan tan bien en entornos fuera de distribución es que sus valores de peso y sus trayectorias de pérdida son muy diferentes entre sí y, como resultado, dan lugar a predicciones diversas (Fort, Hu y Lakshminarayanan, 2019).

Las redes neuronales suelen tener cientos de millones de parámetros más que los puntos de datos de entrenamiento. Esto significa que incluyen un amplio espacio de posibles funciones que podrían aproximarse suficientemente a la función generadora de datos. En consecuencia, hay muchos valles y regiones con bajas pérdidas que corresponden a funciones buenas, pero diferentes. Vistas desde una perspectiva bayesiana (Wilson e Izmailov 2020), estas funciones candidatas corresponden a diferentes hipótesis que identifican la verdadera función subyacente. Por lo tanto, cuantas más funciones candidatas agrupe, más probabilidades tendrá de representar la verdad y, por lo tanto, de lograr un modelo sólido que muestre poca confianza al extender la inferencia fuera de la distribución. Básicamente, los conjuntos se asientan en muchos valles distantes con bajas pérdidas, lo que da lugar a una distribución de funciones diversas (Fort, Hu y Lakshminarayanan, 2019). Por otro lado, los métodos alternativos, como el MC dropout y los enfoques bayesianos alternativos, se concentrarán en un solo valle y obtendrán una distribución de funciones similares. Por lo tanto, solo unas pocas redes neuronales del conjunto entrenadas de forma independiente (Lakshminarayanan, Pritzel y Blundell 2017) y (Ovadia et al. 2019) sugieren que cinco modelos son suficientes, recuperarán con mayor precisión la verdadera probabilidad marginal (distribución predictiva), en comparación con el muestreo en torno a una sola región de baja pérdida, que alojará mucha redundancia (porque todas las funciones serán similares).

En resumen, para mejorar la precisión y maximizar la fiabilidad de las incertidumbres, agrupe sus modelos.