Pourquoi devriez-vous utiliser MLOps ? - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Pourquoi devriez-vous utiliser MLOps ?

Lorsque vous passez de la gestion de projets individuels d'intelligence artificielle et d'apprentissage automatique (AI/ML) à l'utilisation de l'IA pour transformer votre entreprise à grande échelle, la discipline des opérations de machine learning () MLOps peut vous aider. MLOpstient compte des aspects uniques des projets d'IA/ML en matière de gestion de projet, de CI/CD et d'assurance qualité, en vous aidant à améliorer les délais de livraison, à réduire les défauts et à rendre la science des données plus productive. MLOpsfait référence à une méthodologie basée sur l'application de DevOps pratiques aux charges de travail d'apprentissage automatique. Pour une discussion des DevOps principes, voir le white paper Introduction to DevOps on AWS. Pour en savoir plus sur la mise en œuvre à l'aide de AWS services, voir Practiting CI/CD sur AWSet l'infrastructure en tant que code.

Like DevOps, MLOps repose sur une approche collaborative et rationalisée du cycle de vie du développement de l'apprentissage automatique, dans laquelle l'intersection des personnes, des processus et de la technologie optimise les end-to-end activités requises pour développer, créer et exploiter des charges de travail d'apprentissage automatique.

MLOpsse concentre sur l'intersection de la science des données et de l'ingénierie des données en combinaison avec les DevOps pratiques existantes pour rationaliser la fourniture de modèles tout au long du cycle de développement de l'apprentissage automatique. MLOpsest la discipline qui consiste à intégrer les charges de travail du ML dans la gestion des versions, le CI/CD et les opérations. MLOpsnécessite l'intégration du développement logiciel, des opérations, de l'ingénierie des données et de la science des données.

Défis liés à MLOps

Bien que cela MLOps puisse fournir des outils précieux pour vous aider à développer votre activité, vous pouvez rencontrer certains problèmes lors de l'MLOpsintégration à vos charges de travail d'apprentissage automatique.

Gestion de projets

  • Les projets de ML impliquent des scientifiques des données, un rôle relativement nouveau et qui n'est pas souvent intégré dans des équipes interfonctionnelles. Ces nouveaux membres de l'équipe parlent souvent un langage technique très différent de celui des propriétaires de produits et des Software Engineers, ce qui complique le problème habituel de la traduction des exigences métier en exigences techniques.

Communication et collaboration

  • DevOps Il est de plus en plus important de renforcer la visibilité des projets de ML et de permettre la collaboration entre les différentes parties prenantes telles que les ingénieurs des données, les scientifiques des données, les ingénieurs du ML pour garantir des résultats réussis.

Tout est du code

  • Utilisation des données de production dans les activités de développement, cycles de vie d'expérimentation plus longs, dépendances des pipelines de données, nouvel entraînement des pipelines de déploiement et métriques uniques dans l'évaluation des performances d'un modèle.

  • Les modèles ont souvent un cycle de vie indépendant des applications et de l'intégration de systèmes à ces modèles.

  • L'ensemble du end-to-end système est reproductible grâce à du code versionné et à des artefacts. DevOps les projets utilisent l'infrastructure en tant que code (IaC) et la configuration en tant que code (CAc) pour créer des environnements, et les pipelines en tant que code (PaC) pour garantir des modèles CI/CD cohérents. Les pipelines doivent s'intégrer aux flux d'entraînement Big Data et ML. Cela signifie souvent que le pipeline est une combinaison d'un outil CI/CD traditionnel et d'un autre moteur de flux. Il existe d'importantes préoccupations en matière de politique pour de nombreux projets de ML, donc le pipeline peut également devoir appliquer ces politiques. Les données d'entrée biaisées produisent des résultats biaisés, ce qui inquiète de plus en plus les parties prenantes professionnelles.

CI/CD

  • DansMLOps, les données source constituent une entrée de première classe, avec le code source. C'est pourquoi il est MLOps nécessaire de versionner les données sources et de lancer des cycles de pipeline lorsque les données source ou d'inférence changent.

  • Les pipelines doivent également versionner les modèles de ML, ainsi que les entrées et autres sorties, afin d'assurer la traçabilité.

  • Les tests automatisés doivent inclure une validation appropriée du modèle de ML pendant les phases de création et lorsque le modèle est en production.

  • Les phases de création peuvent comprendre un entraînement et un nouvel entraînement du modèle, un processus qui prend beaucoup de temps et exige beaucoup de ressources. Les pipelines doivent être suffisamment détaillés pour effectuer un cycle d'entraînement complet uniquement lorsque les données source ou le code de ML changent, et non lorsque les composants associés changent.

  • Étant donné que le code d'apprentissage automatique ne représente généralement qu'une petite partie d'une solution globale, un pipeline de déploiement peut également intégrer les étapes supplémentaires requises pour empaqueter un modèle destiné à être API utilisé par d'autres applications et systèmes.

Surveillance et journalisation

  • Les phases d'ingénierie des fonctionnalités et d'entraînement du modèle devaient capturer les métriques d'entraînement du modèle, ainsi que les expériences de modèles. Le réglage d'un modèle de ML nécessite de manipuler la forme des données d'entrée, ainsi que les hyperparamètres d'algorithme, et la capture systématique de ces expériences. Le suivi des expériences aide les scientifiques des données à travailler plus efficacement et donne un instantané reproductible de leur travail.

  • Les modèles de ML déployés nécessitent une surveillance des données transmises au modèle à des fins d'inférence, ainsi que des métriques de stabilité et de performance standard du point de terminaison. Le système de surveillance doit également saisir la qualité de la sortie du modèle, telle qu'elle est évaluée au moyen d'une métrique de ML appropriée.

Avantages d'MLOps

L'adoption de MLOps pratiques vous permet d'accélérer time-to-market les projets de machine learning en offrant les avantages suivants.

  • Productivité : la fourniture d'environnements en libre-service avec accès à des jeux de données organisés permet aux ingénieurs de données et aux scientifique des données d'agir plus rapidement et de perdre moins de temps avec des données manquantes ou non valides.

  • Répétabilité : l'automatisation de toutes les étapes vous MLDC permet de garantir la répétabilité du processus, notamment la manière dont le modèle est formé, évalué, versionné et déployé.

  • Fiabilité : l'intégration des pratiques CI/CD permet non seulement un déploiement rapide, mais aussi une qualité et une cohérence accrues.

  • Auditabilité : la gestion des versions de toutes les entrées et sorties, des expériences de science des données aux données sources en passant par le modèle entraîné, signifie que nous pouvons démontrer exactement comment le modèle a été créé et où il a été déployé.

  • Qualité des données et des modèles : nous MLOps permet d'appliquer des politiques qui protègent contre les biais du modèle et suivent l'évolution des propriétés statistiques des données et de la qualité du modèle au fil du temps.