Datenverfeinerung während des Trainings mit Amazon SageMaker Smart Sifting - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenverfeinerung während des Trainings mit Amazon SageMaker Smart Sifting

SageMaker Smart Sifting ist eine Funktion von SageMaker Training, mit der Sie die Effizienz Ihrer Trainingsdatensätze verbessern und die Gesamtdauer und -kosten für das Training reduzieren können.

Moderne Deep-Learning-Modelle wie Large Language Models (LLMs) oder Vision Transformer-Modelle erfordern oft umfangreiche Datensätze, um eine akzeptable Genauigkeit zu erreichen. Beispielsweise sind für die LLMs Konvergenz häufig Billionen von Tokens oder Petabyte an Daten erforderlich. Die wachsende Größe von Trainingsdatensätzen kann zusammen mit der Größe der state-of-the-art Modelle die Rechenzeit und die Kosten für das Modelltraining erhöhen.

Ausnahmslos tragen Stichproben in einem Datensatz nicht in gleichem Maße zum Lernprozess beim Modelltraining bei. Ein erheblicher Teil der während des Trainings bereitgestellten Rechenressourcen könnte für die Verarbeitung einfacher Stichproben aufgewendet werden, die nicht wesentlich zur Gesamtgenauigkeit eines Modells beitragen. Idealerweise würden Trainingsdatensätze nur Stichproben enthalten, die die Modellkonvergenz tatsächlich verbessern. Das Herausfiltern weniger hilfreicher Daten kann die Trainingszeit und die Rechenkosten reduzieren. Die Identifizierung weniger hilfreicher Daten kann jedoch schwierig und riskant sein. Es ist praktisch schwierig, vor dem Training festzustellen, welche Proben weniger aussagekräftig sind, und die Modellgenauigkeit kann beeinträchtigt werden, wenn die falschen Proben oder zu viele Proben ausgeschlossen werden.

Die intelligente Datenanalyse mit Amazon SageMaker kann dazu beitragen, Schulungszeit und -kosten zu reduzieren, indem die Dateneffizienz verbessert wird. Der SageMaker intelligente Algorithmus bewertet den Verlustwert der einzelnen Daten während der Datenladephase eines Trainingsjobs und schließt Stichproben aus, die für das Modell weniger aussagekräftig sind. Durch die Verwendung verfeinerter Daten für das Training werden die Gesamtzeit und die Gesamtkosten für das Training Ihres Modells reduziert, da unnötige Vorwärts- und Rückwärtsübergaben an Daten, die sich nicht verbessern, vermieden werden. Daher hat dies nur minimale oder gar keine Auswirkungen auf die Genauigkeit des Modells.

SageMaker Smart Sifting ist über SageMaker Training Deep Learning Containers (DLCs) verfügbar und unterstützt PyTorch Workloads über. PyTorch DataLoader Für die Implementierung von SageMaker Smart Sifting sind nur wenige Codeänderungen erforderlich, und Sie müssen Ihre bestehenden Trainings- oder Datenverarbeitungsabläufe nicht ändern.