Filtrage et sélection des données pour l'étiquetage - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Filtrage et sélection des données pour l'étiquetage

Vous pouvez utiliser la SageMaker console Amazon pour sélectionner une partie de votre ensemble de données à étiqueter. Les données doivent être stockées dans un compartiment Amazon S3. Trois possibilités s'offrent à vous :

  • Utiliser l'intégralité de l'ensemble de données

  • Choisir un échantillon aléatoire de l'ensemble de données

  • Spécifier un sous-ensemble de l'ensemble de données à l'aide d'une requête

Les options suivantes sont disponibles dans la section Tâches d'étiquetage de la SageMakerconsole après avoir sélectionné Créer une tâche d'étiquetage. Pour savoir comment créer une tâche d'étiquetage dans la console, veuillez consulter Mise en route. Pour configurer le jeu de données que vous utilisez pour l'étiquetage, dans la section Job overview (Présentation de la tâche, choisissez Additional configuration (Configuration supplémentaire).

Utilisation de l'intégralité de l'ensemble de données

Si vous choisissez d'utiliser Full dataset (Intégralité du jeu de données), vous devez fournir un fichier manifeste pour vos objets de données. Vous pouvez fournir le chemin du compartiment Amazon S3 qui contient le fichier manifeste ou utiliser la SageMaker console pour créer le fichier. Pour savoir comment créer un fichier manifeste à l'aide de la console, veuillez consulter Configuration automatique des données.

Choix d'un échantillon aléatoire

Lorsque vous souhaitez étiqueter un sous-ensemble aléatoire de vos données, sélectionnez Random sample (Échantillon aléatoire). Le jeu de données est stocké dans le compartiment Amazon S3 spécifié dans le champ Input dataset location (Emplacement du jeu de données source).

Après avoir spécifié le pourcentage d'objets de données que vous souhaitez inclure dans l'exemple, choisissez Create subset. SageMaker sélectionne de manière aléatoire les objets de données pour votre tâche d'étiquetage. Une fois les objets sélectionnés, choisissez Use this subset (Utiliser ce sous-ensemble).

SageMaker crée un fichier manifeste pour les objets de données sélectionnés. Il modifie également la valeur du champ Input dataset location (Emplacement de l'ensemble de données d'entrée) de sorte qu'il pointe vers le nouveau fichier manifeste.

Spécification d'un sous-ensemble

Vous pouvez spécifier un sous-ensemble de vos objets de données à l'aide d'une requête SELECT Amazon S3 sur les noms des fichiers d'objet.

L'SELECTinstruction de la SQL requête est définie pour vous. Vous renseignez la clause WHERE pour spécifier les objets de données à renvoyer.

Pour en savoir plus sur l'instruction SELECT d'Amazon S3, veuillez consulter Sélection de contenu à partir d'objets.

Choisissez Create subset (Créer un sous-ensemble) pour démarrer la sélection, puis choisissez Use this subset (Utiliser ce sous-ensemble) pour utiliser les données sélectionnées.

SageMaker crée un fichier manifeste pour les objets de données sélectionnés. Il met également à jour la valeur du champ Input dataset location (Emplacement de l'ensemble de données d'entrée) de sorte qu'il pointe vers le nouveau fichier manifeste.