Étape 1. Réaliser l'EDA et développer le modèle initial - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Étape 1. Réaliser l'EDA et développer le modèle initial

Au cours de cette étape, les data scientists effectuent une analyse exploratoire des données (EDA) afin de comprendre le cas d'utilisation et les données du ML. Ils développent ensuite les modèles ML (par exemple, les modèles de classification et de régression) pour résoudre le problème dans un cas d'utilisation donné. Au cours du développement du modèle, le data scientist émet souvent des hypothèses concernant les entrées et les sorties, telles que les formats de données, le cycle de vie des données et l'emplacement des sorties intermédiaires. Ces hypothèses doivent être documentées afin de pouvoir être utilisées à des fins de vérification lors des tests unitaires de l'étape 2.

Bien que cette étape se concentre sur le développement de modèles, les data scientists doivent souvent écrire un minimum de code auxiliaire pour le prétraitement, la formation, l'évaluation et l'inférence. Le data scientist doit être capable d'exécuter ce code dans l'environnement de développement. Nous recommandons également de fournir des arguments d'exécution facultatifs afin que ce code d'assistance puisse être configuré dynamiquement pour s'exécuter dans d'autres environnements sans modifications manuelles importantes. Cela accélérera l'intégration entre le modèle et le pipeline aux étapes 2 et 3. Par exemple, le code de lecture des données brutes doit être encapsulé dans des fonctions afin que les données puissent être prétraitées de manière cohérente.

Nous vous recommandons de commencer par un framework tel que scikit-learn,,, Keras XGBoostPyTorch, ou de TensorFlowdévelopper le modèle ML et son code d'assistance. Par exemple, scikit-learn est une bibliothèque ML gratuite écrite en Python. Il fournit une convention d'API uniforme pour les objets et comprend quatre objets principaux (estimateur, prédicteur, transformateur et modèle) qui couvrent les transformations légères des données, prennent en charge l'ingénierie des étiquettes et des fonctionnalités, et encapsulent les étapes de prétraitement et de modélisation. Ces objets permettent d'éviter la prolifération du code standard et d'empêcher les données de validation et de test de s'infiltrer dans le jeu de données d'apprentissage. De même, chaque framework de ML possède sa propre implémentation des principaux artefacts de ML, et nous vous recommandons de respecter les conventions d'API du framework que vous avez sélectionné lorsque vous développez des modèles de ML.