Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
dropout de Monte Carlo
Una de las formas más populares de estimar la incertidumbre es inferir distribuciones predictivas con redes neuronales bayesianas. Para indicar una distribución predictiva, utilice:

con destino
, entrada
, y
muchos ejemplos de formación
. Cuando obtienes una distribución predictiva, puedes inspeccionar la varianza y descubrir la incertidumbre. Una forma de aprender una distribución predictiva requiere aprender una distribución sobre funciones o, de forma equivalente, una distribución sobre los parámetros (es decir, la distribución posterior paramétrica)
.
La técnica de abandono de Monte Carlo (MC) (Gal y Ghahramani 2016) proporciona una forma escalable de aprender una distribución predictiva. La deserción de MC funciona apagando aleatoriamente las neuronas en una red neuronal, lo que regulariza la red. Cada configuración de abandono se corresponde con una muestra diferente de la distribución posterior paramétrica aproximada
:

where
corresponde a una configuración de abandono, o, equivalentemente, a una simulación ~, muestreada desde la posterior paramétrica aproximada
, como se muestra en la figura siguiente. Muestreo desde la parte posterior aproximada
permite la integración de Montecarlo de la probabilidad del modelo, lo que revela la distribución predictiva, de la siguiente manera:

Para simplificar, cabe suponer que la probabilidad se distribuye gaussiana:

con la función gaussiana
especificada por la media
y varianza
parámetros, que se obtienen mediante simulaciones de la deserción de Monte Carlo BNN:

La siguiente figura ilustra un abandono de MC. Cada configuración de abandono produce una salida diferente al apagar aleatoriamente las neuronas (círculos grises) y activadas (círculos negros) con cada propagación hacia adelante. Las múltiples pasadas hacia adelante con distintas configuraciones de abandono producen una distribución predictiva sobre la media p (f (x, ø)).

El número de pasadas hacia adelante a través de los datos debe evaluarse cuantitativamente, pero 30-100 es un rango adecuado a tener en cuenta (Gal y Ghahramani 2016).