Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Schritt 1. Führen Sie EDA durch und entwickeln Sie das erste Modell
In diesem Schritt führen Datenwissenschaftler eine explorative Datenanalyse (EDA) durch, um den ML-Anwendungsfall und die Daten zu verstehen. Anschließend entwickeln sie die ML-Modelle (z. B. Klassifikations- und Regressionsmodelle), um das Problem in einem bestimmten Anwendungsfall zu lösen. Während der Modellentwicklung macht der Datenwissenschaftler häufig Annahmen über Inputs und Outputs, wie etwa Datenformate, den Datenlebenszyklus und die Orte der Zwischenausgabe. Diese Annahmen sollten dokumentiert werden, damit sie bei den Komponententests in Schritt 2 zur Überprüfung verwendet werden können.
Obwohl sich dieser Schritt auf die Modellentwicklung konzentriert, müssen Datenwissenschaftler oft eine Mindestmenge an Hilfscode für die Vorverarbeitung, Schulung, Bewertung und Inferenz schreiben. Der Datenwissenschaftler sollte in der Lage sein, diesen Code in der Entwicklungsumgebung auszuführen. Wir empfehlen außerdem, optionale Laufzeitargumente anzugeben, damit dieser Hilfscode dynamisch für die Ausführung in anderen Umgebungen ohne umfangreiche manuelle Änderungen konfiguriert werden kann. Dadurch wird die Integration zwischen dem Modell und der Pipeline in den Schritten 2 und 3 beschleunigt. Beispielsweise sollte Code zum Lesen der Rohdaten in Funktionen gekapselt werden, damit Daten konsistent vorverarbeitet werden können.
Wir empfehlen, mit einem Framework wie scikit-learn