Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Affinage des données pendant la formation avec Amazon SageMaker Smart Sifting

Mode de mise au point
Affinage des données pendant la formation avec Amazon SageMaker Smart Sifting - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker Le criblage intelligent est une fonctionnalité d' SageMaker entraînement qui permet d'améliorer l'efficacité de vos ensembles de données d'entraînement et de réduire le temps et le coût totaux de l'entraînement.

Les modèles d'apprentissage profond modernes tels que les grands modèles de langage (LLMs) ou les modèles de transformateurs de vision nécessitent souvent des ensembles de données volumineux pour atteindre une précision acceptable. Par exemple, la LLMs convergence nécessite souvent des milliards de jetons ou des pétaoctets de données. La taille croissante des ensembles de données d'entraînement, ainsi que la taille des state-of-the-art modèles, peuvent augmenter le temps de calcul et le coût de la formation des modèles.

Invariablement, les échantillons d'un jeu de données ne contribuent pas de la même manière au processus d'apprentissage lors de l'entraînement du modèle. Une part importante des ressources informatiques allouées pendant la formation peut être consacrée au traitement d'échantillons simples qui ne contribuent pas de manière significative à la précision globale d'un modèle. Idéalement, les ensembles de données d'entraînement n'incluraient que des échantillons qui améliorent réellement la convergence du modèle. Le filtrage des données moins utiles peut réduire le temps de formation et les coûts de calcul. Cependant, l'identification de données moins utiles peut s'avérer difficile et risquée. Il est pratiquement difficile d'identifier les échantillons les moins informatifs avant l'entraînement, et la précision du modèle peut être affectée si les mauvais échantillons ou un trop grand nombre d'échantillons sont exclus.

Le tri intelligent des données avec Amazon SageMaker AI peut contribuer à réduire le temps et les coûts de formation en améliorant l'efficacité des données. L'algorithme de criblage SageMaker intelligent évalue la valeur de perte de chaque donnée pendant la phase de chargement des données d'une tâche de formation et exclut les échantillons moins informatifs pour le modèle. En utilisant des données raffinées pour l'entraînement, le temps et le coût totaux de l'entraînement de votre modèle sont réduits en éliminant les transferts inutiles en avant et en arrière sur des données qui ne s'améliorent pas. Par conséquent, l'impact sur la précision du modèle est minime, voire nul.

SageMaker le criblage intelligent est disponible via SageMaker Training Deep Learning Containers (DLCs) et prend en charge les PyTorch charges de travail via le. PyTorch DataLoader Quelques lignes de code seulement sont nécessaires pour implémenter le tri SageMaker intelligent et vous n'avez pas besoin de modifier vos flux de formation ou de traitement des données existants.

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.