Schritt 1. Führen Sie EDA durch und entwickeln Sie das erste Modell

In diesem Schritt führen Datenwissenschaftler eine explorative Datenanalyse (EDA) durch, um den ML-Anwendungsfall und die Daten zu verstehen. Anschließend entwickeln sie die ML-Modelle (z. B. Klassifikations- und Regressionsmodelle), um das Problem in einem bestimmten Anwendungsfall zu lösen. Während der Modellentwicklung macht der Datenwissenschaftler häufig Annahmen über Inputs und Outputs, wie etwa Datenformate, den Datenlebenszyklus und die Orte der Zwischenausgabe. Diese Annahmen sollten dokumentiert werden, damit sie bei den Komponententests in Schritt 2 zur Überprüfung verwendet werden können.

Obwohl sich dieser Schritt auf die Modellentwicklung konzentriert, müssen Datenwissenschaftler oft eine Mindestmenge an Hilfscode für die Vorverarbeitung, Schulung, Bewertung und Inferenz schreiben. Der Datenwissenschaftler sollte in der Lage sein, diesen Code in der Entwicklungsumgebung auszuführen. Wir empfehlen außerdem, optionale Laufzeitargumente anzugeben, damit dieser Hilfscode dynamisch für die Ausführung in anderen Umgebungen ohne umfangreiche manuelle Änderungen konfiguriert werden kann. Dadurch wird die Integration zwischen dem Modell und der Pipeline in den Schritten 2 und 3 beschleunigt. Beispielsweise sollte Code zum Lesen der Rohdaten in Funktionen gekapselt werden, damit Daten konsistent vorverarbeitet werden können.

Wir empfehlen, mit einem Framework wie scikit-learn,, XGBoost PyTorch, Keras zu beginnen oder das ML-Modell und seinen TensorFlowHilfscode zu entwickeln. Scikit-Learn ist beispielsweise eine kostenlose ML-Bibliothek, die in Python geschrieben ist. Sie bietet eine einheitliche API-Konvention für Objekte und umfasst vier Hauptobjekte — Schätzer, Prädiktor, Transformator und Modell —, die einfache Datentransformationen abdecken, Label- und Feature-Engineering unterstützen und Vorverarbeitungs- und Modellierungsschritte kapseln. Diese Objekte tragen dazu bei, die Verbreitung von Standardcode zu verhindern und zu verhindern, dass Validierungs- und Testdaten in den Trainingsdatensatz gelangen. Ebenso verfügt jedes ML-Framework über eine eigene Implementierung der wichtigsten ML-Artefakte. Wir empfehlen Ihnen, bei der Entwicklung von ML-Modellen die API-Konventionen Ihres ausgewählten Frameworks einzuhalten.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Einführung

Weiter