Conclusión - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conclusión

Esta guía proporciona una visión general conceptual de la incertidumbre en los sistemas de aprendizaje profundo. Describe experimentos que amplían la literatura existente para cubrir el escenario del aprendizaje por transferencia para el procesamiento de lenguaje natural (NLP) tanto en entornos dentro como fuera de la distribución. Por último, presenta un estudio de caso que sirve como hoja de ruta sobre cómo los científicos de datos pueden aplicar estos conceptos en su trabajo en un sector altamente regulado.

Al cuantificar la incertidumbre en las redes de aprendizaje profundo, nuestra recomendación general es utilizar la escalada de temperatura con grupos profundos. La escalada de temperatura proporciona estimaciones de incertidumbre interpretables cuando los datos entrantes están en distribución. Por lo tanto, la escalada de temperatura aborda la incertidumbre total ajustando las incertidumbres softmax para que no generen un exceso de confianza. La escalada de temperatura debe realizarse en el conjunto de datos de validación, una vez que el modelo se haya entrenado en el conjunto de datos de validación.

En la actualidad, los grupos profundos proporcionan estimaciones de incertidumbre de última generación cuando los datos están fuera de distribución. Proporcionan estimaciones de incertidumbre epistémica más altas cuando se presentan con datos diferentes de los datos de entrenamiento. Esto se debe a la fuerza de la diversidad de los modelos subyacentes que componen el grupo profundo. Sugerimos que cinco modelos serán suficientes en la mayoría de las situaciones.

En dos casos, le recomendamos que consideres el MC dropout como alternativa a los grupos profundos: cuando el alojamiento de varios modelos suponga un problema debido a la carga adicional que supone para la infraestructura, y en el caso del aprendizaje por transferencia (es decir, cuando se utilicen pesos previamente entrenados). Cuando los requisitos de alojamiento para varios modelos son motivo de preocupación, el MC dropout es una alternativa válida a los grupos profundos. Si utiliza el MC dropout como sustituto de los grupos profundos, debe estar preparado para sacrificar parte de la latencia computacional en aras de realizar más iteraciones en los datos. Recomendamos entre 30 y 100 iteraciones como rango adecuado. En el aprendizaje por transferencia, habrá menos diversificación entre los alumnos de base agrupados (es decir, las ponderaciones del modelo subyacente serán más parecidas entre sí). Esta es la razón por la que la incertidumbre predictiva total puede ser baja en el aprendizaje por transferencia, especialmente en entornos con datos fuera de distribución. Como resultado, en la situación del aprendizaje por transferencia, considere la posibilidad de complementar o reemplazar los conjuntos profundos con el MC dropout.