Mise à jour d'un jeu de données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Mise à jour d'un jeu de données

Après avoir importé votre ensemble de données initial dans Amazon SageMaker Canvas, il se peut que vous souhaitiez ajouter des données supplémentaires à votre ensemble de données. Par exemple, vous pouvez obtenir des données d'inventaire à la fin de chaque semaine que vous souhaitez ajouter à votre jeu de données. Au lieu d'importer vos données plusieurs fois, vous pouvez mettre à jour votre jeu de données existant et y ajouter des fichiers ou en supprimer.

Note

Vous ne pouvez mettre à jour que les jeux de données que vous avez importés via le chargement local ou Amazon S3.

Vous pouvez mettre à jour votre jeu de données manuellement ou automatiquement. Avec les mises à jour automatiques, vous spécifiez un emplacement où Canvas vérifie les fichiers à la fréquence que vous spécifiez. Si vous importez de nouveaux fichiers lors de la mise à jour, le schéma des fichiers doit correspondre exactement au jeu de données existant.

Chaque fois que vous mettez à jour votre jeu de données, Canvas crée une nouvelle version de votre jeu de données. Vous ne pouvez utiliser que la dernière version de votre jeu de données pour créer un modèle ou générer des prédictions. Pour plus d'informations sur l'affichage de l'historique des versions de votre jeu de données, consultez Affichage des détails de votre jeu de données.

Vous pouvez également utiliser les mises à jour des jeux de données avec des prédictions par lots automatisées, qui démarrent une tâche de prédiction par lots chaque fois que vous mettez à jour votre jeu de données. Pour plus d’informations, consultez Effectuer des prédictions par lots.

Les sections suivantes expliquent comment effectuer des mises à jour manuelles et automatiques de votre jeu de données.

Mise à jour manuelle d'un jeu de données

Pour effectuer une mise à jour manuelle, procédez comme suit :

  1. Ouvrez l'application SageMaker Canvas.

  2. Dans le panneau de navigation de gauche, sélectionnez Datasets (Jeux de données).

  3. Dans la liste des jeux de données, choisissez le jeu de données que vous souhaitez mettre à jour.

  4. Choisissez le menu déroulant Mettre à jour le jeu de données, puis choisissez Mise à jour manuelle. Vous accédez au flux de travail d'importation de données.

  5. Dans le menu déroulant Source de données, choisissez Chargement local ou Amazon S3.

  6. La page affiche un aperçu de vos données. À partir de cette page, vous pouvez ajouter des fichiers au jeu de données ou en supprimer. Si vous importez des données tabulaires, le schéma des nouveaux fichiers (noms de colonnes et types de données) doit correspondre au schéma des fichiers existants. En outre, vos nouveaux fichiers ne doivent pas dépasser la taille de jeu de données ou de fichier maximale. Pour plus d'informations sur ces limitations, consultez Importation d'un jeu de données.

    Note

    Si vous ajoutez un fichier portant le même nom qu'un fichier existant dans votre jeu de données, le nouveau fichier remplace l'ancienne version du fichier.

  7. Lorsque vous êtes prêt à enregistrer des modifications, choisissez Mettre à jour le jeu de données.

Vous devriez maintenant disposer d'une nouvelle version de votre jeu de données.

Sur la page Jeux de données, vous pouvez choisir l'onglet Historique des versions pour voir toutes les versions de votre jeu de données, ainsi que l'historique des mises à jour manuelles et automatiques que vous avez effectuées.

Configuration des mises à jour automatiques pour un jeu de données

Une mise à jour automatique se produit lorsque vous définissez une configuration permettant à Canvas de mettre à jour votre jeu de données à une fréquence donnée. Nous vous recommandons d'utiliser cette option si vous recevez régulièrement de nouveaux fichiers de données que vous souhaitez ajouter à votre jeu de données.

Lorsque vous définissez la configuration de mise à jour automatique, vous spécifiez un emplacement Amazon S3 où vous chargez vos fichiers et une fréquence à laquelle Canvas vérifie l'emplacement et importe les fichiers. Chaque instance de Canvas qui met à jour votre jeu de données est appelée tâche. Pour chaque tâche, Canvas importe tous les fichiers de l'emplacement Amazon S3. Si vous disposez de nouveaux fichiers portant les mêmes noms que les fichiers existants dans votre jeu de données, Canvas remplace les anciens fichiers par les nouveaux.

Pour les mises à jour automatiques des jeux de données, Canvas n'effectue pas de validation du schéma. Si le schéma des fichiers importés lors d'une mise à jour automatique ne correspond pas au schéma des fichiers existants ou dépasse les limites de taille (consultez Importation d'un jeu de données pour obtenir un tableau des limites de taille de fichier), des erreurs se produisent lors de l'exécution de vos tâches.

Note

Vous ne pouvez configurer qu'un maximum de 20 configurations automatiques dans votre application Canvas. De plus, Canvas effectue des mises à jour automatiques uniquement lorsque vous êtes connecté à votre application Canvas. Si vous vous déconnectez de votre application Canvas, les mises à jour automatiques sont interrompues jusqu'à ce que vous vous reconnectiez.

Pour configurer les mises à jour automatiques de votre jeu de données, procédez comme suit :

  1. Ouvrez l'application SageMaker Canvas.

  2. Dans le panneau de navigation de gauche, sélectionnez Datasets (Jeux de données).

  3. Dans la liste des jeux de données, choisissez le jeu de données que vous souhaitez mettre à jour.

  4. Choisissez le menu déroulant Mettre à jour le jeu de données, puis choisissez Mise à jour automatique. Vous êtes redirigé vers l'onglet Mises à jour automatiques du jeu de données.

  5. Activez l'option à bascule Mise à jour automatique activée.

  6. Pour Spécifier une source de données, entrez le chemin Amazon S3 vers un dossier dans lequel vous prévoyez de charger régulièrement des fichiers.

  7. Pour Choisir une fréquence, sélectionnez Horaire, Hebdomadaire ou Quotidienne.

  8. Pour Spécifier une heure de début, utilisez le calendrier et le sélecteur d'heure pour sélectionner le moment où vous souhaitez que la première tâche de mise à jour automatique commence.

  9. Lorsque vous êtes prêt à créer la configuration de mise à jour automatique, choisissez Enregistrer.

Canvas commence la première tâche de votre cadence de mise à jour automatique à l'heure de début spécifiée.

Pour plus d'informations sur l'affichage de l'historique des tâches de mise à jour automatique ou sur la modification de votre configuration de mise à jour automatique via la page Automatisations de l'application Canvas, consultez Gestion des automatisations.

Les sections suivantes expliquent comment afficher, mettre à jour et supprimer votre configuration de mise à jour automatique via la page Jeux de données de l'application Canvas.

Affichage de vos tâches de mise à jour automatique des jeux de données

Pour consulter l'historique des tâches relatives aux mises à jour automatiques de votre jeu de données, sur la page des détails de votre jeu de données, choisissez l'onglet Mises à jour automatiques.

Chaque mise à jour automatique d'un jeu de données apparaît sous la forme d'une tâche dans l'onglet Mises à jour automatiques sous la section Historique des tâches. Pour chaque tâche, vous voyez les éléments suivants :

  • Tâche créée : horodatage auquel Canvas a commencé à mettre à jour le jeu de données.

  • Fichiers : nombre de fichiers dans le jeu de données.

  • Cellules (colonnes x lignes) : nombre de colonnes et de lignes du jeu de données.

  • Statut : statut du jeu de données après la mise à jour. Si la tâche a réussi, le statut indique Prêt. Si la tâche a échoué pour une raison quelconque, le statut indique Échec. Vous pouvez survoler le statut pour obtenir plus de détails.

Modification de la configuration de mise à jour automatique d'un jeu de données

Vous souhaiterez peut-être apporter des modifications à la configuration de mise à jour automatique d'un ensemble de données, en modifiant par exemple la fréquence des mises à jour. Vous pouvez également désactiver votre configuration de mise à jour automatique pour interrompre les mises à jour de votre jeu de données.

Pour modifier la configuration de mise à jour automatique d'un jeu de données, accédez à l'onglet Mises à jour automatiques de votre jeu de données et choisissez Modifier pour apporter des modifications à la configuration.

Pour interrompre les mises à jour de votre jeu de données, désactivez votre configuration automatique. Vous pouvez désactiver les mises à jour automatiques en accédant à l'onglet Mises à jour automatiques de votre jeu de données et en désactivant l'option Activer les mises à jour automatiques. Vous pouvez réactiver cette option à tout moment pour reprendre le calendrier de mise à jour.

Suppression de la configuration de mise à jour automatique d'un jeu de données

Pour découvrir comment supprimer votre configuration, consultez Suppression d'une configuration automatique.