Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Étape 1. Réaliser l'EDA et développer le modèle initial
Au cours de cette étape, les data scientists effectuent une analyse exploratoire des données (EDA) afin de comprendre le cas d'utilisation et les données du ML. Ils développent ensuite les modèles ML (par exemple, les modèles de classification et de régression) pour résoudre le problème dans un cas d'utilisation donné. Au cours du développement du modèle, le data scientist émet souvent des hypothèses concernant les entrées et les sorties, telles que les formats de données, le cycle de vie des données et l'emplacement des sorties intermédiaires. Ces hypothèses doivent être documentées afin de pouvoir être utilisées à des fins de vérification lors des tests unitaires de l'étape 2.
Bien que cette étape se concentre sur le développement de modèles, les data scientists doivent souvent écrire un minimum de code auxiliaire pour le prétraitement, la formation, l'évaluation et l'inférence. Le data scientist doit être capable d'exécuter ce code dans l'environnement de développement. Nous recommandons également de fournir des arguments d'exécution facultatifs afin que ce code d'assistance puisse être configuré dynamiquement pour s'exécuter dans d'autres environnements sans modifications manuelles importantes. Cela accélérera l'intégration entre le modèle et le pipeline aux étapes 2 et 3. Par exemple, le code de lecture des données brutes doit être encapsulé dans des fonctions afin que les données puissent être prétraitées de manière cohérente.
Nous vous recommandons de commencer par un framework tel que scikit-learn