Pourquoi devriez-vous utiliser MLOps ?

Au fur et à mesure que vous passez de la gestion individuelle de l'intelligence artificielleAI/ML) projects to using AI/ML to transform your business at scale, the discipline of ML Operations (MLOps) can help. MLOps accounts for the unique aspects of AI/ML projects in project management, CI/CD, de l'apprentissage automatique (et de l'assurance qualité), à améliorer les délais de livraison, à réduire les défauts et à rendre la science des données plus productive. MLOps fait référence à une méthodologie basée sur l'application de DevOps pratiques aux charges de travail d'apprentissage automatique. Pour une discussion sur les DevOps principes, voir le white paper Introduction to DevOps on AWS. Pour en savoir plus sur la mise en œuvre à l'aide de AWS services, consultez Practice CI/CD on AWS et Infrastructure as Code.

Like DevOps, MLOps repose sur une approche collaborative et rationalisée du cycle de vie du développement de l'apprentissage automatique, dans laquelle l'intersection des personnes, des processus et de la technologie optimise les end-to-end activités nécessaires au développement, à la création et à l'exploitation des charges de travail d'apprentissage automatique.

MLOps se concentre sur l'intersection de la science des données et de l'ingénierie des données en combinaison avec les DevOps pratiques existantes pour rationaliser la fourniture de modèles tout au long du cycle de développement de l'apprentissage automatique. MLOps est la discipline qui consiste à intégrer les charges de travail du ML dans la gestion des versions, le CI/CD et les opérations. MLOps nécessite l'intégration du développement logiciel, des opérations, de l'ingénierie des données et de la science des données.

Défis liés à MLOps

Bien que cela MLOps puisse fournir des outils précieux pour vous aider à développer votre activité, vous pouvez rencontrer certains problèmes lors de l' MLOps intégration à vos charges de travail d'apprentissage automatique.

Gestion de projets

Les projets de ML impliquent des scientifiques des données, un rôle relativement nouveau et qui n'est pas souvent intégré dans des équipes interfonctionnelles. Ces nouveaux membres de l'équipe parlent souvent un langage technique très différent de celui des propriétaires de produits et des Software Engineers, ce qui complique le problème habituel de la traduction des exigences métier en exigences techniques.

Communication et collaboration

DevOps Il est de plus en plus important de renforcer la visibilité des projets de ML et de permettre la collaboration entre les différentes parties prenantes telles que les ingénieurs des données, les scientifiques des données, les ingénieurs du ML pour garantir des résultats réussis.

Tout est du code

Utilisation des données de production dans les activités de développement, cycles de vie d'expérimentation plus longs, dépendances des pipelines de données, nouvel entraînement des pipelines de déploiement et métriques uniques dans l'évaluation des performances d'un modèle.
Les modèles ont souvent un cycle de vie indépendant des applications et de l'intégration de systèmes à ces modèles.
L'ensemble du end-to-end système est reproductible grâce à du code versionné et à des artefacts. DevOps les projets utilisent Infrastructure-as-Code (IaC) et Configuration-as-Code (CaC) pour créer des environnements, et Pipelines-as-Code (PaC) pour garantir CI/CD des modèles cohérents. Les pipelines doivent s'intégrer aux flux d'entraînement Big Data et ML. Cela signifie souvent que le pipeline est une combinaison d'un CI/CD outil traditionnel et d'un autre moteur de flux de travail. Il existe d'importantes préoccupations en matière de politique pour de nombreux projets de ML, donc le pipeline peut également devoir appliquer ces politiques. Les données d'entrée biaisées produisent des résultats biaisés, ce qui inquiète de plus en plus les parties prenantes professionnelles.

CI/CD

Dans MLOps, les données source constituent une entrée de première classe, avec le code source. C'est pourquoi il est MLOps nécessaire de versionner les données sources et de lancer des cycles de pipeline lorsque les données source ou d'inférence changent.
Les pipelines doivent également versionner les modèles de ML, ainsi que les entrées et autres sorties, afin d'assurer la traçabilité.
Les tests automatisés doivent inclure une validation appropriée du modèle de ML pendant les phases de création et lorsque le modèle est en production.
Les phases de création peuvent comprendre un entraînement et un nouvel entraînement du modèle, un processus qui prend beaucoup de temps et exige beaucoup de ressources. Les pipelines doivent être suffisamment détaillés pour effectuer un cycle d'entraînement complet uniquement lorsque les données source ou le code de ML changent, et non lorsque les composants associés changent.
Étant donné que le code de machine learning représente généralement une petite partie d'une solution globale, un pipeline de déploiement peut également intégrer les étapes supplémentaires requises pour contenir un modèle en vue de sa consommation en tant qu'API par d'autres applications et systèmes.

Surveillance et journalisation

Les phases d'ingénierie des fonctionnalités et d'entraînement du modèle devaient capturer les métriques d'entraînement du modèle, ainsi que les expériences de modèles. Le réglage d'un modèle de ML nécessite de manipuler la forme des données d'entrée, ainsi que les hyperparamètres d'algorithme, et la capture systématique de ces expériences. Le suivi des expériences aide les scientifiques des données à travailler plus efficacement et donne un instantané reproductible de leur travail.
Les modèles de ML déployés nécessitent une surveillance des données transmises au modèle à des fins d'inférence, ainsi que des métriques de stabilité et de performance standard du point de terminaison. Le système de surveillance doit également saisir la qualité de la sortie du modèle, telle qu'elle est évaluée au moyen d'une métrique de ML appropriée.

Avantages de MLOps

L'adoption de MLOps pratiques accélère time-to-market les projets de machine learning en offrant les avantages suivants.

Productivité : la fourniture d'environnements en libre-service avec accès à des jeux de données organisés permet aux ingénieurs de données et aux scientifique des données d'agir plus rapidement et de perdre moins de temps avec des données manquantes ou non valides.
Répétabilité : l'automatisation de toutes les étapes du MLDC vous permet de garantir un processus reproductible, y compris la façon dont le modèle est entraîné, évalué, versionné et déployé.
Fiabilité : l'intégration des pratiques CI/CD permet non seulement un déploiement rapide, mais aussi une qualité et une cohérence accrues.
Auditabilité : la gestion des versions de toutes les entrées et sorties, des expériences de science des données aux données sources en passant par le modèle entraîné, signifie que nous pouvons démontrer exactement comment le modèle a été créé et où il a été déployé.
Qualité des données et des modèles : nous MLOps permet d'appliquer des politiques qui protègent contre les biais du modèle et suivent l'évolution des propriétés statistiques des données et de la qualité du modèle au fil du temps.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Mettre en œuvre MLOps

Expériences