Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Conclusión
Esta guía proporciona una visión general conceptual de la incertidumbre en los sistemas de aprendizaje profundo. Describió experimentos que amplían la literatura existente para cubrir el escenario de aprendizaje de transferencias para el procesamiento del lenguaje natural (PNL) tanto en la distribución como fuera de la distribución. Por último, proporcionó un estudio de caso que sirve de hoja de ruta para determinar cómo los científicos de datos pueden aplicar estos conceptos en su trabajo en una industria altamente regulada.
Al cuantificar la incertidumbre en las redes de aprendizaje profundo, nuestra recomendación general es utilizar el escalado de temperatura con conjuntos profundos. El escalado de temperatura proporciona estimaciones de incertidumbre interpretables cuando los datos entrantes están en distribución. Por lo tanto, el escalado de temperatura aborda la incertidumbre total ajustando las incertidumbres softmax para que no tengan tanta confianza. El escalado de temperatura debe realizarse en el conjunto de datos de validación, una vez que el modelo haya recibido formación sobre el conjunto de datos de validación.
En la actualidad, los conjuntos profundos proporcionan estimaciones de última generación de incertidumbre cuando los datos están fuera de distribución. Proporcionan estimaciones de incertidumbre epistémica más altas cuando se presentan datos distintos de los datos de formación. Esto se debe a la fuerza en la diversidad de los modelos subyacentes que componen el conjunto profundo. Sugerimos que bastarán cinco modelos en la mayoría de las situaciones.
En dos escenarios, le recomendamos que considere la deserción de MC como una alternativa a los conjuntos profundos: cuando alojar varios modelos es motivo de preocupación debido a la carga adicional de la infraestructura y al aprendizaje de transferencias (es decir, cuando se utilizan pesas preentrenadas). Cuando los requisitos de alojamiento para varios modelos son preocupantes, la deserción de MC es una alternativa válida a los conjuntos profundos. Si está utilizando la deserción de MC como reemplazo de conjuntos profundos, debería estar preparado para sacrificar cierta latencia computacional en aras de más iteraciones a través de los datos. Recomendamos entre 30 y 100 iteraciones como un rango adecuado. En el aprendizaje por transferencia, habrá menos diversificación entre los alumnos base ensamblados (es decir, las ponderaciones del modelo subyacente serán más similares entre sí). Es por ello que la incertidumbre predictiva total puede ser baja en el aprendizaje por transferencia, especialmente en entornos con datos fuera de distribución. Como resultado, en la situación de aprendizaje de transferencia, considere la posibilidad de complementar o reemplazar conjuntos profundos con abandono de MC.