Création d'un flux de données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'un flux de données

Utilisez un flux Data Wrangler dans SageMaker Canvas, ou flux de données, pour créer et modifier un pipeline de préparation des données. Les ensembles de données, les transformations et les analyses que vous utilisez dans le flux de données sont représentés sous forme d'étapes.

Importer des données dans un flux de données

Nous vous recommandons d'utiliser Data Wrangler pour les ensembles de données supérieurs à 5 Go. Pour commencer, importez vos données dans un flux de données.

Pour importer vos données dans un flux de données, procédez comme suit.

Pour importer vos données dans un flux de données
  1. Ouvrez SageMaker Canvas.

  2. Dans la barre de navigation de gauche, choisissez Data Wrangler.

  3. Choisissez Importer et préparer.

  4. Dans le menu déroulant, choisissez Tabulaire ou Image.

  5. Pour Sélectionner une source de données, choisissez votre source de données et sélectionnez les données que vous souhaitez importer. Vous avez la possibilité de sélectionner jusqu'à 30 fichiers ou un dossier. Si vous avez déjà importé un jeu de données dans Canvas, choisissez le jeu de données Canvas comme source. Sinon, connectez-vous à une source de données telle qu'Amazon S3 ou Snowflake et parcourez vos données. Pour plus d'informations sur la connexion à une source de données ou l'importation de données, consultez les pages suivantes :

  6. Après avoir sélectionné les données que vous souhaitez importer, choisissez Next.

  7. (Facultatif) Pour la section Paramètres d'importation lors de l'importation d'un jeu de données tabulaire, développez le menu déroulant Avancé. Vous pouvez définir les paramètres avancés suivants pour les importations de flux de données :

    • Méthode d'échantillonnage — Sélectionnez la méthode d'échantillonnage et la taille de l'échantillon que vous souhaitez utiliser. Pour plus d'informations sur les méthodes d'échantillonnage, consultez la section qui suit cette procédureÉchantillonnage importé.

    • Encodage de fichier (CSV) : sélectionnez le codage du fichier de votre ensemble de données. UTF-8est la valeur par défaut.

    • Ignorer les premières lignes : entrez le nombre de lignes que vous souhaitez ignorer d'importer si vous avez des lignes redondantes au début de votre jeu de données.

    • Séparateur : sélectionnez le séparateur qui sépare chaque élément de vos données. Vous pouvez également spécifier un délimiteur personnalisé.

    • Détection multiligne : sélectionnez cette option si vous souhaitez que Canvas analyse manuellement l'intégralité de votre jeu de données pour détecter les cellules multilignes. Canvas détermine s'il convient ou non d'utiliser le support multiligne en prélevant un échantillon de vos données, mais Canvas risque de ne détecter aucune cellule multiligne dans l'échantillon. Dans ce cas, nous vous recommandons de sélectionner l'option de détection multiligne pour forcer Canvas à vérifier la présence de cellules multilignes dans l'ensemble de votre jeu de données.

  8. Choisissez Import (Importer).

Échantillonnage importé

Lorsque vous importez des données tabulaires dans un flux de données Data Wrangler, vous pouvez choisir de prélever un échantillon de votre ensemble de données afin d'accélérer le processus d'exploration et de nettoyage des données. L'exécution de transformations exploratoires sur un échantillon de votre jeu de données est souvent plus rapide que l'exécution de transformations sur l'ensemble de votre ensemble de données, et lorsque vous êtes prêt à exporter votre ensemble de données et à créer un modèle, vous pouvez appliquer les transformations à l'ensemble de données.

Canvas prend en charge les méthodes d'échantillonnage suivantes :

  • FirstK — Canvas sélectionne les K premiers éléments de votre jeu de données, où K est un nombre que vous spécifiez. Cette méthode d'échantillonnage est simple mais peut introduire un biais si votre ensemble de données n'est pas ordonné de manière aléatoire.

  • Aléatoire — Canvas sélectionne des éléments de l'ensemble de données au hasard, chaque élément ayant une probabilité égale d'être choisi. Cette méthode d'échantillonnage permet de garantir que l'échantillon est représentatif de l'ensemble de données dans son intégralité.

  • Stratifié — Canvas divise l'ensemble de données en groupes (ou strates) en fonction d'un ou de plusieurs attributs (par exemple, l'âge et le niveau de revenu). Ensuite, un nombre proportionnel d'éléments est sélectionné au hasard dans chaque groupe. Cette méthode garantit que tous les sous-groupes concernés sont correctement représentés dans l'échantillon.

Vous pouvez modifier votre configuration d'échantillonnage à tout moment pour modifier la taille de l'échantillon utilisé pour l'exploration des données. Pour de plus amples informations, veuillez consulter Modifier la configuration d'échantillonnage.

L'interface utilisateur du flux de données

Lorsque vous importez un jeu de données, le jeu de données d'origine apparaît dans le flux de données et est nommé Source. SageMaker Canvas déduit automatiquement les types de chaque colonne de votre ensemble de données et crée une nouvelle trame de données nommée Data types. Vous pouvez sélectionner ce volet pour mettre à jour les types de données déduits.

Chaque fois que vous ajoutez une étape de transformation, vous créez un nouveau nom de données. Lorsque plusieurs étapes de transformation (autres que Join (Joindre) ou Concatenate (Concaténer)) sont ajoutées au même jeu de données, elles sont empilées.

Dans l'option Combiner les données, Joindre et concaténer créent des étapes autonomes contenant le nouveau jeu de données joint ou concaténé.

Pour vous aider à naviguer dans votre flux de données, Data Wrangler comporte les onglets suivants dans le volet de navigation supérieur :

  • Flux de données : cet onglet fournit une vue visuelle de l'étape de votre flux de données, dans laquelle vous pouvez ajouter ou supprimer des transformations et exporter des données.

  • Données — Cet onglet vous donne un aperçu de vos données afin que vous puissiez vérifier les résultats de vos transformations. Vous pouvez également consulter une liste ordonnée des étapes de votre flux de données et modifier ou réorganiser les étapes.

  • Analyses : dans cet onglet, vous pouvez voir des sous-onglets distincts pour chaque analyse que vous créez. Par exemple, si vous créez un histogramme et un rapport Data Quality and Insights (DQI), Canvas crée un onglet pour chacun d'eux.

Ajouter une étape à votre flux de données

Cliquez sur le symbole + en regard d'un jeu de données ou d'une étape précédemment ajoutée, puis choisissez l'une des options suivantes :

  • Modifier les types de données (pour une étape des types de données uniquement) : Si vous n'avez ajouté aucune transformation à une étape des types de données, vous pouvez double-cliquer sur l'étape Types de données dans votre flux pour ouvrir l'onglet Données et modifier les types de données déduits par Data Wrangler lors de l'importation de votre ensemble de données.

  • Add transform (Ajouter une transformation) : ajoute une nouvelle étape de transformation. Veuillez consulter Transformez les données pour en savoir plus sur les transformations de données que vous pouvez ajouter.

  • Obtenez des informations sur les données : ajoutez des analyses, telles que des histogrammes ou des visualisations personnalisées. Vous pouvez utiliser cette option pour analyser vos données à n'importe quel moment du flux de données. Veuillez consulter Effectuer une analyse exploratoire des données () EDA pour en savoir plus sur les analyses que vous pouvez ajouter.

  • Joindre : trouvez cette option sous Combiner les données pour joindre deux ensembles de données et ajouter le jeu de données obtenu au flux de données. Pour en savoir plus, consultez Joindre des jeux de données.

  • Concaténer : recherchez cette option sous Combiner les données pour concaténer deux ensembles de données et ajouter le jeu de données obtenu au flux de données. Pour en savoir plus, consultez Concaténer des jeux de données.

Réorganisez les étapes de votre flux de données

Après avoir ajouté des étapes à votre flux de données, vous avez la possibilité de réorganiser les étapes au lieu de les supprimer et de les ajouter à nouveau dans le bon ordre. Par exemple, vous pouvez décider de déplacer une transformation pour imputer les valeurs manquantes avant de passer à une étape de formatage des chaînes.

Note

Vous ne pouvez pas modifier l'ordre de certains types d'étapes, tels que la définition de votre source de données, la modification des types de données, la jointure, la concaténation ou le fractionnement. Les étapes qui ne peuvent pas être réorganisées sont grisées dans l'interface utilisateur de l'application Canvas.

Pour réorganiser les étapes de votre flux de données, procédez comme suit :

  1. Lorsque vous modifiez un flux de données dans Data Wrangler, choisissez l'onglet Données. Un panneau latéral appelé Étapes répertorie les étapes de votre flux de données dans l'ordre.

  2. Passez le curseur sur une étape de transformation et cliquez sur l'icône Autres options ( Vertical ellipsis icon representing a menu or more options. ) à côté de cette étape.

  3. Dans le menu contextuel, choisissez Réorganiser.

  4. Faites glisser les étapes de votre flux de données dans l'ordre souhaité.

  5. Lorsque vous avez terminé, choisissez Enregistrer.

Les étapes et le graphique de votre flux de données devraient désormais refléter les modifications que vous avez apportées.

Modifier la configuration d'échantillonnage

Vous pouvez modifier la taille ou le type de l'échantillon utilisé dans votre flux de données en modifiant votre configuration d'échantillonnage.

Pour apporter des modifications à votre configuration d'échantillonnage, procédez comme suit :

  1. Dans votre graphique de flux de données, sélectionnez le nœud de votre source de données.

  2. Choisissez Échantillonnage dans la barre de navigation inférieure.

  3. La boîte de dialogue Sampling s'ouvre. Dans le menu déroulant Méthode d'échantillonnage, sélectionnez la méthode d'échantillonnage souhaitée.

  4. Dans Taille d'échantillon maximale, entrez le nombre de lignes que vous souhaitez échantillonner.

  5. Choisissez Mettre à jour pour enregistrer vos modifications.

Les modifications apportées à votre configuration d'échantillonnage doivent maintenant être appliquées.

Étape de modification ou de remplacement d'une source de données

Vous devrez peut-être apporter des modifications à votre source de données ou à votre jeu de données sans supprimer les transformations et les étapes de flux de données appliquées à vos données d'origine. Dans Data Wrangler, vous pouvez modifier ou remplacer la configuration de votre source de données tout en respectant les étapes de votre flux de données. Lorsque vous modifiez une source de données, vous pouvez modifier les paramètres d'importation, tels que la taille ou la méthode d'échantillonnage, ainsi que les paramètres avancés. Vous pouvez également ajouter d'autres fichiers avec le même schéma, ou pour les sources de données basées sur des requêtes telles qu'Amazon Athena, vous pouvez modifier la requête. Lorsque vous remplacez une source de données, vous avez la possibilité de sélectionner un autre jeu de données, ou même d'importer les données d'une source de données complètement différente, à condition que le schéma des nouvelles données corresponde aux données d'origine.

Pour modifier la configuration d'une source de données, procédez comme suit :

  1. Dans l'application Canvas, accédez à la page Data Wrangler.

  2. Choisissez votre flux de données pour le visualiser.

  3. Dans l'onglet Flux de données qui indique les étapes de votre flux de données, recherchez le nœud Source que vous souhaitez modifier.

  4. Cliquez sur l'icône représentant des points de suspension à côté du nœud Source.

  5. Dans le menu contextuel, choisissez Edit.

  6. Pour les sources de données Amazon S3 et le téléchargement local, vous avez la possibilité de sélectionner ou de télécharger d'autres fichiers avec le même schéma que vos données d'origine. Pour les sources de données basées sur des requêtes telles qu'Amazon Athena, vous pouvez supprimer et sélectionner différentes tables dans le générateur visuel de requêtes, ou vous pouvez modifier SQL la requête directement. Lorsque vous avez terminé, sélectionnez Next.

  7. Pour les paramètres d'importation, apportez les modifications souhaitées.

  8. Lorsque vous avez terminé, choisissez Enregistrer les modifications.

Votre source de données devrait maintenant être mise à jour.

Pour remplacer une source de données, procédez comme suit :

  1. Dans l'application Canvas, accédez à la page Data Wrangler.

  2. Choisissez votre flux de données pour le visualiser.

  3. Dans l'onglet Flux de données qui indique les étapes de votre flux de données, recherchez le nœud Source que vous souhaitez modifier.

  4. Cliquez sur l'icône représentant des points de suspension à côté du nœud Source.

  5. Dans le menu contextuel, choisissez Remplacer.

  6. Passez par l'expérience Importer des données dans un flux de données pour sélectionner une autre source de données et des données.

  7. Lorsque vous avez sélectionné vos données et que vous êtes prêt à mettre à jour le nœud source, choisissez Enregistrer.

Vous devriez maintenant voir le nœud Source mis à jour dans votre flux de données.

Suppression d'une étape de votre flux de données

Pour supprimer une étape, dans l'onglet Flux de données de votre flux de données, sélectionnez le signe + à côté de l'étape, puis sélectionnez Supprimer. Si le nœud ne contient qu'une seule entrée, vous ne supprimez que l'étape sélectionnée. La suppression d'une étape comportant une seule entrée ne supprime pas les étapes qui la suivent. Si vous supprimez une étape pour un nœud de source, de jointure ou de concaténation, toutes les étapes qui suivent sont également supprimées.

Pour supprimer une étape d'une pile d'étapes, sélectionnez la pile, puis sélectionnez l'étape à supprimer.

Vous pouvez utiliser l'une des procédures suivantes pour supprimer une étape sans supprimer les étapes en aval.

Delete a step in the Data Wrangler flow

Vous pouvez supprimer une étape individuelle pour les nœuds de votre flux de données qui n'ont qu'une seule entrée. Vous ne pouvez pas supprimer des étapes individuelles pour les nœuds de source, de jointure et de concaténation.

Utilisez la procédure suivante pour supprimer une étape du flux Data Wrangler.

  1. Choisissez le groupe d'étapes qui contient celle que vous supprimez.

  2. Choisissez l'icône en regard de l'étape.

  3. Choisissez Delete step (Supprimer l'étape).

Delete a step in the table view

Utilisez la procédure suivante pour supprimer une étape dans la vue de table.

Vous pouvez supprimer une étape individuelle pour les nœuds de votre flux de données qui n'ont qu'une seule entrée. Vous ne pouvez pas supprimer des étapes individuelles pour les nœuds de source, de jointure et de concaténation.

  1. Choisissez l'étape et ouvrez la vue de table correspondant à l'étape.

  2. Placez le curseur sur l'étape pour que l'icône présentant des points de suspension apparaisse.

  3. Choisissez l'icône en regard de l'étape.

  4. Sélectionnez Delete (Supprimer).