Paso 1. Realice la EDA y desarrolle el modelo inicial - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Paso 1. Realice la EDA y desarrolle el modelo inicial

En este paso, los científicos de datos realizan un análisis de datos exploratorio (EDA) para comprender el caso de uso y los datos del ML. A continuación, desarrollan los modelos de ML (por ejemplo, modelos de clasificación y regresión) para resolver el problema en un caso de uso determinado. Durante el desarrollo del modelo, el científico de datos suele hacer suposiciones sobre las entradas y las salidas, como los formatos de los datos, el ciclo de vida de los datos y las ubicaciones de los resultados intermedios. Estas suposiciones deben documentarse para que puedan usarse para la verificación durante las pruebas unitarias del paso 2.

Si bien este paso se centra en el desarrollo del modelo, los científicos de datos suelen tener que escribir una cantidad mínima de código auxiliar para el preprocesamiento, la formación, la evaluación y la inferencia. El científico de datos debería poder ejecutar este código en el entorno de desarrollo. También recomendamos facilitar argumentos de tiempo de ejecución opcionales para que este código auxiliar se pueda configurar dinámicamente para que se ejecute en otros entornos sin necesidad de realizar cambios manuales exhaustivos. Esto acelerará la integración entre el modelo y la canalización en los pasos 2 y 3. Por ejemplo, el código para leer los datos sin procesar debe encapsularse en funciones para que los datos se puedan preprocesar de manera coherente.

Le recomendamos que comience con un marco como scikit-learn,, XGBoostPyTorch, Keras o TensorFlowque desarrolle el modelo ML y su código auxiliar. Por ejemplo, scikit-learn es una biblioteca de ML gratuita escrita en Python. Facilita una convención de API uniforme para los objetos e incluye cuatro objetos principales (estimador, predictor, transformador y modelo) que abordan transformaciones de datos ligeras, admiten la ingeniería de características y etiquetas, y encapsulan los pasos de preprocesamiento y modelado. Estos objetos ayudan a evitar la proliferación de códigos reutilizables y evitan que los datos de validación y prueba se filtren al conjunto de datos de entrenamiento. Del mismo modo, cada marco de ML tiene su propia implementación de los elementos clave del ML, y le recomendamos que cumpla con las convenciones de API del marco que haya seleccionado al desarrollar modelos de ML.