1. Datenzentriertes Management - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

1. Datenzentriertes Management

Datenmanagement ist die Praxis, bei der sichergestellt wird, dass Daten, die für Schulungen, Tests und Inferenzen verwendet werden, ordnungsgemäß verwaltet, gesichert und validiert werden. Bei der Erstellung von Modellen in großem Maßstab sind Daten das wichtigste Gut, das eine hohe Modellleistung ermöglicht.

1.1 Datenspeicher

Ein Datenspeicher erfordert die Fähigkeit, Daten zu verfolgen und ihren Entstehungsort zu ermitteln. Wenn neue Daten hinzugefügt oder entfernt werden, zeichnet das Datenarchiv diese Änderungen bei der point-in-time Wiederherstellung auf. Das Datenarchiv sollte berücksichtigen, wie Etikettendaten nachverfolgt und verarbeitet werden und wie Datenartefakte zwischen den Daten nachverfolgt werden.

1.2 Integration vielfältiger Datenquellen

Je nach Anwendung sind für das Trainieren Ihres Modells möglicherweise Daten aus vielen Quellen erforderlich. Die Entwicklung und Pflege eines Manifests, das ML-Praktiker über die verfügbaren Datenquellen und deren Verknüpfung informiert, ist entscheidend für die Erstellung von Modellen.

1.3 Validierung des Datenschemas

Um Modelldaten einzuspeisen, ist es wichtig, dass die Trainingsdaten homogen sind. Für Daten, die in Data-Lake-Lösungen wie Amazon Simple Storage Service (Amazon S3) oder in Dokumentendatenspeichern gespeichert sind, können Transformationen oder andere explorative Analysen erforderlich sein.

1.4 Versionierung und Herkunft der Daten

Beim Training von Modellen, die in der Produktion verwendet werden könnten, müssen Sie in der Lage sein, die Ergebnisse zu reproduzieren und Ablationsstudien zuverlässig durchzuführen, um die Gesamtleistung des Modells besser zu verstehen. Die Nachverfolgung des Zustands der Trainingsdaten ist für diese Reproduzierbarkeit von entscheidender Bedeutung. Tools wie Data Version Control (DVC) können dabei helfen.

1.5 Arbeitsablauf bei der Etikettierung

In Fällen, in denen beschriftete Daten zu Beginn des Projekts nicht verfügbar sind, ist die Erstellung von beschrifteten Daten oft ein notwendiger Schritt. Tools wie Amazon SageMaker Ground Truth erfordern, dass die Eingabedaten angemessen strukturiert sind, und sie erfordern eine definierte und getestete Kennzeichnungsaufgabe. Es muss eine Belegschaft von internen oder externen Etikettierern eingesetzt werden. Die Daten sollten dann validiert werden, indem entweder redundante Kennzeichnungs- oder maschinelle Lernansätze verwendet werden, um Ausreißer oder Fehler im Trainingsdatensatz zu identifizieren.

1.6 Online- und Offline-Speicherung von Funktionen

Das ML-System verfügt über einen Feature-Store oder einen zentralen Speicher für Features und zugehörige Metadaten, sodass Features oder Modelleingaben wiederverwendet werden können. Sie können einen Online- oder Offline-Speicher erstellen. Verwenden Sie einen Online-Shop für Anwendungsfälle mit niedriger Latenz und Echtzeit-Inferenz. Verwenden Sie einen Offline-Store für Schulungen und Batch-Inferenz.