Warum sollten Sie MLOps verwenden? - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Warum sollten Sie MLOps verwenden?

Wenn Sie von der Durchführung einzelner Projekte für künstliche Intelligenz und Machine Learning (KI/ML) zur Nutzung von KI/ML zur Skalierung Ihres Unternehmens übergehen, kann Ihnen die Disziplin ML Operations (MLOps) helfen. MLOps berücksichtigt die einzigartigen Aspekte von KI/ML-Projekten in den Bereichen Projektmanagement, CI/CD und Qualitätssicherung und hilft Ihnen dabei, die Lieferzeiten zu verkürzen, Fehler zu reduzieren und die Datenwissenschaft produktiver zu gestalten. MLOps bezieht sich auf eine Methode, die auf der Anwendung von DevOps Praktiken auf Workloads für maschinelles Lernen basiert. Eine Erläuterung der DevOps Prinzipien finden Sie im Whitepaper Introduction to DevOps on AWS. Weitere Informationen zur Implementierung mithilfe von AWS Services finden Sie unter Practicing CI/CD on AWS und Infrastructure as Code.

Ebenso DevOps basiert MLOps auf einem kollaborativen und optimierten Ansatz für den Entwicklungszyklus des maschinellen Lernens, bei dem die Schnittstelle von Menschen, Prozessen und Technologie die end-to-end Aktivitäten optimiert, die für die Entwicklung, den Aufbau und den Betrieb von Workloads für maschinelles Lernen erforderlich sind.

MLOps konzentriert sich auf die Schnittstelle von Datenwissenschaft und Datentechnik in Kombination mit bestehenden DevOps Praktiken, um die Modellbereitstellung während des gesamten Entwicklungszyklus des maschinellen Lernens zu optimieren. MLOps ist die Disziplin der Integration von ML-Workloads in Release-Management, CI/CD und den Betrieb. MLOps erfordert die Integration von Softwareentwicklung, Betrieb, Datentechnik und Datenwissenschaft.

Herausforderungen mit MLOps

Obwohl MLOps wertvolle Tools zur Skalierung Ihres Unternehmens bieten können, können Sie bei der Integration von MLOps in Ihre Workloads für Machine Learning auf bestimmte Probleme stoßen.

Projektmanagement

  • An ML-Projekten sind Datenwissenschaftler beteiligt, eine relativ neue Rolle, die nicht oft in funktionsübergreifende Teams integriert wird. Diese neuen Teammitglieder sprechen oft eine ganz andere Fachsprache als Produktbesitzer und Softwareingenieure, was das übliche Problem der Übersetzung von Geschäftsanforderungen in technische Anforderungen noch verschärft.

Kommunikation und Zusammenarbeit

  • DevOps Es wird immer wichtiger, ML-Projekte transparenter zu machen und die Zusammenarbeit zwischen verschiedenen Interessengruppen wie Dateningenieuren, Datenwissenschaftlern und ML-Ingenieuren zu ermöglichen, um erfolgreiche Ergebnisse sicherzustellen.

Alles ist Code

  • Verwendung von Produktionsdaten für Entwicklungsaktivitäten, längere Lebenszyklen von Experimenten, Abhängigkeiten von Daten-Pipelines, Neutraining von Bereitstellungspipelines und einzigartige Kennzahlen zur Bewertung der Leistung eines Modells.

  • Modelle haben oft einen Lebenszyklus, der unabhängig von den Anwendungen und Systemen ist, die in diese Modelle integriert werden.

  • Das gesamte end-to-end System ist durch versionierten Code und Artefakte reproduzierbar. DevOps Projekte verwenden Infrastructure-as-Code (IaC) und Configuration-as-Code (cAC) zum Aufbau von Umgebungen und Pipelines-as-Code (PaC), um konsistente CI/CD-Muster zu gewährleisten. Die Pipelines müssen in Big Data- und ML-Trainingsworkflows integriert werden. Das bedeutet oft, dass die Pipeline eine Kombination aus einem herkömmlichen CI/CD-Tool und einer anderen Workflow-Engine ist. Bei vielen ML-Projekten gibt es wichtige politische Bedenken, weshalb die Pipeline diese Richtlinien möglicherweise auch durchsetzen muss. Verzerrte Eingabedaten führen zu verzerrten Ergebnissen, was die Interessengruppen in der Wirtschaft zunehmend beunruhigt.

CI/CD

  • In MLOps sind die Quelldaten zusammen mit dem Quellcode eine erstklassige Eingabe. Aus diesem Grund erfordert MLOps die Versionierung der Quelldaten und die Initiierung von Pipeline-Läufen, wenn sich die Quell- oder Inferenzdaten ändern.

  • Pipelines müssen auch die ML-Modelle zusammen mit Eingaben und anderen Ausgaben versionieren, um die Rückverfolgbarkeit zu gewährleisten.

  • Automatisierte Tests müssen eine ordnungsgemäße Validierung des ML-Modells während der Erstellungsphasen und während der Produktion des Modells beinhalten.

  • Die Entwicklungsphasen können Modelltraining und Neutraining beinhalten, was ein zeitaufwändiger und ressourcenintensiver Prozess ist. Pipelines müssen so detailliert sein, dass sie nur dann einen vollständigen Trainingszyklus durchführen können, wenn sich die Quelldaten oder der ML-Code ändern, und nicht, wenn sich zugehörige Komponenten ändern.

  • Da Machine-Learning-Code in der Regel nur ein kleiner Teil einer Gesamtlösung ist, kann eine Bereitstellungspipeline auch die zusätzlichen Schritte beinhalten, die erforderlich sind, um ein Modell so zu verpacken, dass es von anderen Anwendungen und Systemen als API genutzt werden kann.

Überwachung und Protokollierung

  • Die Phasen Feature-Engineering und Modelltraining, die zur Erfassung von Modelltrainingsmetriken und Modellexperimenten erforderlich sind. Die Optimierung eines ML-Modells erfordert die Manipulation der Form der Eingabedaten sowie der Algorithmus-Hyperparameter und die systematische Erfassung dieser Experimente. Die Nachverfolgung von Experimenten hilft Datenwissenschaftlern dabei, effektiver zu arbeiten, und bietet eine reproduzierbare Momentaufnahme ihrer Arbeit.

  • Implementierte ML-Modelle erfordern die Überwachung der Daten, die zur Inferenz an das Modell übergeben werden, zusammen mit den standardmäßigen Stabilitäts- und Leistungsmetriken für Endgeräte. Das Überwachungssystem muss auch die Qualität der Modellausgabe erfassen, die anhand einer geeigneten ML-Metrik bewertet wird.

Vorteile von MLOps

Durch die Einführung von time-to-market MLOpS-Praktiken können Sie ML-Projekte schneller durchführen, da sie die folgenden Vorteile bieten.

  • Produktivität: Durch die Bereitstellung von Self-Service-Umgebungen mit Zugriff auf kuratierte Datensätze können Dateningenieure und Datenwissenschaftler schneller arbeiten und weniger Zeit mit fehlenden oder ungültigen Daten verschwenden.

  • Wiederholbarkeit: Durch die Automatisierung aller Schritte im MLDC können Sie einen wiederholbaren Prozess sicherstellen, einschließlich der Art und Weise, wie das Modell trainiert, bewertet, versioniert und bereitgestellt wird.

  • Zuverlässigkeit: Die Integration von CI/CD-Praktiken ermöglicht nicht nur eine schnelle Implementierung, sondern auch eine höhere Qualität und Konsistenz.

  • Überprüfbarkeit: Durch die Versionierung aller Eingaben und Ausgaben, von datenwissenschaftlichen Experimenten über Quelldaten bis hin zu trainierten Modellen, können wir genau nachweisen, wie das Modell erstellt und wo es eingesetzt wurde.

  • Daten- und Modellqualität: Mit MLOps können wir Richtlinien durchsetzen, die vor Modellverzerrungen schützen und Änderungen an den statistischen Eigenschaften und der Modellqualität von Daten im Laufe der Zeit verfolgen.