Stockage - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Stockage

Question

Exemple de réponse

Où seront stockées les données d'entraînement ?

Dans le stockage dans le cloud (par exemple, Amazon S3, le stockage de fichiers, le stockage par blocs ou le stockage d'objets), dans le stockage sur site, etc.

Quelles sont les exigences de stockage pour les données de formation et les artefacts du modèle (par exemple, capacité, durabilité, disponibilité) ?

Stockage à l'échelle du pétaoctet, durabilité élevée (durabilité de 99,999999999 %), haute disponibilité, etc.

Quelles sont les exigences en matière de conservation et de sauvegarde des données de formation et des artefacts du modèle ?

Conservation des données pendant x ans, sauvegardes quotidiennes, sauvegardes hors site, etc.

Quels formats de fichiers sont principalement utilisés pour stocker vos ensembles de données de formation basés sur l'IA (par exemple, CSV, JSON, Parquet HDF5) ?

Fichiers Parquet pour les données structurées, HDF5 les grands tableaux multidimensionnels et les données non structurées telles que les images et le texte. Nous utilisons des formats spécialisés, par exemple TFRecord pour optimiser le chargement des données pendant l'entraînement.

Comment sont organisés vos ensembles de données d'entraînement : sous forme de fichiers individuels, dans des bases de données ou à l'aide de formats de données d'IA spécialisés ?

Les ensembles de données de petite à moyenne taille sont stockés sous forme de fichiers Parquet individuels dans le stockage d'objets pour plus de flexibilité. Les grands ensembles de données sont stockés dans une base de données distribuée (Cassandra) pour gérer l'échelle.

Utilisez-vous des techniques de compression ou d'encodage de données spécifiques aux données d'entraînement génératives issues de l'IA ?

Pour les données tabulaires, nous utilisons des techniques de codage par dictionnaire et de compression de bits disponibles dans Parquet. Pour les images, nous utilisons une compression JPEG avec perte avec des paramètres de qualité optimisés pour nos modèles.

Comment gérez-vous le versionnement et le stockage des différentes itérations d'ensembles de données de formation ? Quel impact cela a-t-il sur l'ensemble de vos besoins de stockage ?

Nous utilisons un système de version des données (DVC) intégré à notre plateforme ML.