Ya no actualizamos el servicio Amazon Machine Learning ni aceptamos nuevos usuarios para él. Esta documentación está disponible para los usuarios actuales, pero ya no la actualizamos. Para obtener más información, consulte Qué es Amazon Machine Learning.
Dividir los datos en datos de formación y evaluación
El objetivo fundamental de ML consiste en generalizar más allá de las instancias de datos que se utilizan para entrenar a los modelos. Queremos evaluar el modelo para estimar la calidad de su generalización de patrones para los datos en los que el modelo no ha sido entrenado. Sin embargo, dado que las instancias futuras tienen valores de destino desconocidos y no podemos comprobar ahora mismo la precisión de nuestras predicciones para las instancias del futuro, tenemos que utilizar algunos de los datos para los que ya conocemos la respuesta como proxy para los datos futuros. Evaluar el modelo con los mismos datos que se han utilizado para el entrenamiento no es útil, ya que recompensa a los modelos que pueden "recordar" los datos de entrenamiento en lugar de generalizar.
Una estrategia común consiste en tomar todos los datos etiquetados y dividirlos en subconjuntos de entrenamiento y evaluación, normalmente con una proporción del 70 al 80 % para entrenamiento y un 20 al 30 % para evaluación. El sistema de ML utiliza los datos de entrenamiento para entrenar a los modelos a que vean patrones y utiliza los datos de evaluación para evaluar la calidad de predicción del modelo entrenado. El sistema de ML evalúa el rendimiento predictivo al comparar las predicciones en el conjunto de datos de evaluación con valores verdaderos (conocidos dato real) usando una variedad de métricas. Normalmente, puede utilizar el "mejor" modelo en el subconjunto de evaluación para hacer predicciones sobre instancias futuras para las que no conoce la respuesta de destino.
Amazon ML divide los datos enviados para el entrenamiento de un modelo a través de la consola de en 70 % para entrenamiento y 30 % para evaluación. De forma predeterminada, Amazon ML utiliza el primer 70 % de los datos de entrada en el orden en que aparecen en el origen de datos para entrenar la fuente de datos y el 30 % restante de los datos para la evaluación de la fuente de datos. Amazon ML también permite seleccionar un 70 % aleatorio del origen de datos para el entrenamiento en lugar de utilizar el primer 70 % y utilizando el complemento de este subconjunto aleatorio para la evaluación. Puede utilizar las API de Amazon ML para especificar proporciones de división personalizadas y proporcionar datos de entrenamiento y evaluación que se hayan dividido fuera de Amazon ML. Amazon ML también ofrece estrategias para dividir los datos. Para obtener más información acerca de las estrategias de división, consulte División de datos.