Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Paso 1. Realice la EDA y desarrolle el modelo inicial
En este paso, los científicos de datos realizan un análisis de datos exploratorio (EDA) para comprender el caso de uso y los datos del ML. A continuación, desarrollan los modelos de ML (por ejemplo, modelos de clasificación y regresión) para resolver el problema en un caso de uso determinado. Durante el desarrollo del modelo, el científico de datos suele hacer suposiciones sobre las entradas y las salidas, como los formatos de los datos, el ciclo de vida de los datos y las ubicaciones de los resultados intermedios. Estas suposiciones deben documentarse para que puedan usarse para la verificación durante las pruebas unitarias del paso 2.
Si bien este paso se centra en el desarrollo del modelo, los científicos de datos suelen tener que escribir una cantidad mínima de código auxiliar para el preprocesamiento, la formación, la evaluación y la inferencia. El científico de datos debería poder ejecutar este código en el entorno de desarrollo. También recomendamos facilitar argumentos de tiempo de ejecución opcionales para que este código auxiliar se pueda configurar dinámicamente para que se ejecute en otros entornos sin necesidad de realizar cambios manuales exhaustivos. Esto acelerará la integración entre el modelo y la canalización en los pasos 2 y 3. Por ejemplo, el código para leer los datos sin procesar debe encapsularse en funciones para que los datos se puedan preprocesar de manera coherente.
Le recomendamos que comience con un marco como scikit-learn