Création d'un flux de données

Utilisez un flux Data Wrangler dans SageMaker Canvas, ou flux de données, pour créer et modifier un pipeline de préparation des données. Nous vous recommandons d'utiliser Data Wrangler pour les ensembles de données supérieurs à 5 Go.

Pour commencer, utilisez la procédure suivante pour importer vos données dans un flux de données.

Ouvrez SageMaker Canvas.
Dans la barre de navigation de gauche, choisissez Data Wrangler.
Choisissez Importer et préparer.
Dans le menu déroulant, choisissez Tabulaire ou Image.
Pour Sélectionner une source de données, choisissez votre source de données et sélectionnez les données que vous souhaitez importer. Vous avez la possibilité de sélectionner jusqu'à 30 fichiers ou un dossier. Si vous avez déjà importé un jeu de données dans Canvas, choisissez le jeu de données Canvas comme source. Sinon, connectez-vous à une source de données telle qu'Amazon S3 ou Snowflake et parcourez vos données. Pour plus d'informations sur la connexion à une source de données ou l'importation de données, consultez les pages suivantes :
- Importation de données
- Connexion aux sources de données
Après avoir sélectionné les données que vous souhaitez importer, choisissez Next.
(Facultatif) Pour la section Paramètres d'importation lors de l'importation d'un jeu de données tabulaire, développez le menu déroulant Avancé. Vous pouvez définir les paramètres avancés suivants pour les importations de flux de données :
- Méthode d'échantillonnage — Sélectionnez la méthode d'échantillonnage et la taille de l'échantillon que vous souhaitez utiliser. Pour plus d'informations sur la façon de modifier votre échantillon, consultez la sectionModifier la configuration d'échantillonnage du flux de données.
- Encodage de fichier (CSV) : sélectionnez le codage du fichier de votre jeu de données. UTF-8est la valeur par défaut.
- Ignorer les premières lignes : entrez le nombre de lignes que vous souhaitez ignorer d'importer si vous avez des lignes redondantes au début de votre jeu de données.
- Séparateur : sélectionnez le séparateur qui sépare chaque élément de vos données. Vous pouvez également spécifier un délimiteur personnalisé.
- Détection multiligne : sélectionnez cette option si vous souhaitez que Canvas analyse manuellement l'intégralité de votre jeu de données pour détecter les cellules multilignes. Canvas détermine s'il faut ou non utiliser le support multiligne en prélevant un échantillon de vos données, mais Canvas risque de ne détecter aucune cellule multiligne dans l'échantillon. Dans ce cas, nous vous recommandons de sélectionner l'option de détection multiligne pour forcer Canvas à vérifier la présence de cellules multilignes dans l'ensemble de votre jeu de données.
Choisissez Importer.

Vous devriez maintenant disposer d'un nouveau flux de données, et vous pouvez commencer à ajouter des étapes de transformation et des analyses.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Préparation des données

Fonctionnement de l'interface utilisateur du flux de données