dropout de Monte Carlo - AWSGuía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

dropout de Monte Carlo

Una de las formas más populares de estimar la incertidumbre es inferir distribuciones predictivas con redes neuronales bayesianas. Para indicar una distribución predictiva, utilice:


    Distribución predictiva

con destino , entrada , y muchos ejemplos de formación . Cuando obtienes una distribución predictiva, puedes inspeccionar la varianza y descubrir la incertidumbre. Una forma de aprender una distribución predictiva requiere aprender una distribución sobre funciones o, de forma equivalente, una distribución sobre los parámetros (es decir, la distribución posterior paramétrica) .

La técnica de abandono de Monte Carlo (MC) (Gal y Ghahramani 2016) proporciona una forma escalable de aprender una distribución predictiva. La deserción de MC funciona apagando aleatoriamente las neuronas en una red neuronal, lo que regulariza la red. Cada configuración de abandono se corresponde con una muestra diferente de la distribución posterior paramétrica aproximada :


    dropout MC

where corresponde a una configuración de abandono, o, equivalentemente, a una simulación ~, muestreada desde la posterior paramétrica aproximada , como se muestra en la figura siguiente. Muestreo desde la parte posterior aproximada permite la integración de Montecarlo de la probabilidad del modelo, lo que revela la distribución predictiva, de la siguiente manera:


    Distribución predictiva en la deserción de MC

Para simplificar, cabe suponer que la probabilidad se distribuye gaussiana:


    Probabilidad distribuida gaussiana

con la función gaussiana especificada por la media y varianza parámetros, que se obtienen mediante simulaciones de la deserción de Monte Carlo BNN:


    dropout MC BNN

La siguiente figura ilustra un abandono de MC. Cada configuración de abandono produce una salida diferente al apagar aleatoriamente las neuronas (círculos grises) y activadas (círculos negros) con cada propagación hacia adelante. Las múltiples pasadas hacia adelante con distintas configuraciones de abandono producen una distribución predictiva sobre la media p (f (x, ø)).


    dropout MC

El número de pasadas hacia adelante a través de los datos debe evaluarse cuantitativamente, pero 30-100 es un rango adecuado a tener en cuenta (Gal y Ghahramani 2016).