Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
1. Datenzentriertes Management
Datenmanagement ist die Praxis, bei der sichergestellt wird, dass Daten, die für Schulungen, Tests und Inferenzen verwendet werden, ordnungsgemäß verwaltet, gesichert und validiert werden. Bei der Erstellung von Modellen in großem Maßstab sind Daten das wichtigste Gut, das eine hohe Modellleistung ermöglicht.
1.1 Datenspeicher |
Ein Datenspeicher erfordert die Fähigkeit, Daten zu verfolgen und ihren Entstehungsort zu ermitteln. Wenn neue Daten hinzugefügt oder entfernt werden, zeichnet das Datenarchiv diese Änderungen bei der point-in-time Wiederherstellung auf. Das Datenarchiv sollte berücksichtigen, wie Etikettendaten nachverfolgt und verarbeitet werden und wie Datenartefakte zwischen den Daten nachverfolgt werden. |
1.2 Integration vielfältiger Datenquellen |
Je nach Anwendung sind für das Trainieren Ihres Modells möglicherweise Daten aus vielen Quellen erforderlich. Die Entwicklung und Pflege eines Manifests, das ML-Praktiker über die verfügbaren Datenquellen und deren Verknüpfung informiert, ist entscheidend für die Erstellung von Modellen. |
1.3 Validierung des Datenschemas |
Um Modelldaten einzuspeisen, ist es wichtig, dass die Trainingsdaten homogen sind. Für Daten, die in Data-Lake-Lösungen wie Amazon Simple Storage Service (Amazon S3) oder in Dokumentendatenspeichern gespeichert sind, können Transformationen oder andere explorative Analysen erforderlich sein. |
1.4 Versionierung und Herkunft der Daten |
Beim Training von Modellen, die in der Produktion verwendet werden könnten, müssen Sie in der Lage sein, die Ergebnisse zu reproduzieren und Ablationsstudien |
1.5 Arbeitsablauf bei der Etikettierung |
In Fällen, in denen beschriftete Daten zu Beginn des Projekts nicht verfügbar sind, ist die Erstellung von beschrifteten Daten oft ein notwendiger Schritt. Tools wie Amazon SageMaker Ground Truth erfordern, dass die Eingabedaten angemessen strukturiert sind, und sie erfordern eine definierte und getestete Kennzeichnungsaufgabe. Es muss eine Belegschaft von internen oder externen Etikettierern eingesetzt werden. Die Daten sollten dann validiert werden, indem entweder redundante Kennzeichnungs- oder maschinelle Lernansätze verwendet werden, um Ausreißer oder Fehler im Trainingsdatensatz zu identifizieren. |
1.6 Online- und Offline-Speicherung von Funktionen |
Das ML-System verfügt über einen Feature-Store oder einen zentralen Speicher für Features und zugehörige Metadaten, sodass Features oder Modelleingaben wiederverwendet werden können. Sie können einen Online- oder Offline-Speicher erstellen. Verwenden Sie einen Online-Shop für Anwendungsfälle mit niedriger Latenz und Echtzeit-Inferenz. Verwenden Sie einen Offline-Store für Schulungen und Batch-Inferenz. |