Accéder aux données d'entraînement - Amazon SageMaker

Accéder aux données d'entraînement

Lorsque vous créez une tâche d'entraînement, vous spécifiez l'emplacement du jeu de données d'entraînement et le mode d'entrée pour accéder à ces données. Pour l'emplacement des données, Amazon SageMaker prend en charge Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon EFS) et Amazon FSx for Lustre, en fonction du mode d'entrée. Le mode d'entrée détermine si les données sont diffusées en continu ou téléchargées au début de la tâche d'entraînement.

Modes d'entrée

  • Le mode File (Fichier) présente une vue du système de fichiers du jeu de données dans le conteneur d'entraînement. Les sources de données peuvent être Amazon S3 ou Amazon EFS et des systèmes de fichiers distants Amazon FSx.

    Le mode File (Fichier) télécharge les données d'entraînement de l'emplacement de stockage vers un répertoire local dans le conteneur Docker. L'entraînement commence une fois que le jeu de données complet a été téléchargé.

  • Le mode Pipe (Canal) diffuse les données directement à partir d'une source de données Amazon S3. Le streaming peut fournir des temps de démarrage plus rapides et un meilleur débit que le mode File.

    Lorsque vous diffusez les données directement, vous pouvez réduire la taille des volumes Amazon EBS utilisés par l'instance d'entraînement. Le mode Pipe n'a besoin que d'assez d'espace disque pour stocker les artefacts du modèle final.

  • Le mode FastFile fournit un accès au système de fichiers à une source de données Amazon S3 tout en tirant parti de l'avantage de performance du mode Pipe. Au début de l'entraînement, le mode FastFile identifie les fichiers de données, mais ne les télécharge pas. L'entraînement peut commencer sans attendre le téléchargement du jeu de données. Le temps de démarrage est plus court lorsque le préfixe Amazon S3 fourni contient moins de fichiers.

    Contrairement au mode Pipe, le mode FastFile fonctionne avec un accès aléatoire aux données. Cependant, il fonctionne mieux lorsque les données sont lues de manière séquentielle. Le mode FastFile ne prend pas en charge les fichiers manifestes augmentés.

Pour de plus amples informations, veuillez consulter Mise à disposition d'informations d'entraînement par Amazon SageMaker, l'API CreateTrainingJob et TrainingInputMode dans AlgorithmSpecification.