Création d'un jeu de données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'un jeu de données

Les sections suivantes décrivent comment créer un ensemble de données dans Amazon SageMaker Canvas. Pour les modèles personnalisés, vous pouvez créer des jeux de données pour les données tabulaires et les données d'image. Pour les eady-to-use modèles R, vous pouvez utiliser des ensembles de données tabulaires et d'images ainsi que des ensembles de données de documents. Choisissez votre flux de travail en fonction des informations suivantes :

Note

Pour plus d'informations sur l'importation d'un jeu de données de documents pour les eady-to-use modèles R qui acceptent des données de document, consultez le Importation de données de document flux de travail dans la documentation eady-to-use des modèles R.

Un jeu de données peut comporter plusieurs fichiers. Par exemple, vous pouvez avoir plusieurs fichiers de données d'inventaire au format CSV. Vous pouvez charger ces fichiers ensemble sous forme de jeu de données tant que le schéma (ou les noms de colonnes et les types de données) des fichiers correspondent.

Canvas prend également en charge la gestion de plusieurs versions de votre jeu de données. Lorsque vous créez un jeu de données, la première version est nommée V1. Vous pouvez créer une nouvelle version de votre jeu de données en le mettant à jour. Vous pouvez effectuer une mise à jour manuelle ou définir un calendrier automatisé pour mettre à jour votre jeu de données avec de nouvelles données. Pour plus d’informations, consultez Mise à jour d'un jeu de données.

Lorsque vous importez vos données dans Canvas, assurez-vous qu'elles répondent aux exigences du tableau suivant. Les limitations sont spécifiques au type de modèle que vous créez.

Limite Modèles de séries temporelles, numériques, à 2 catégories, à 3 catégories et plus Modèles de prédiction de texte Modèles de prédiction d'image *Données du document pour les modèles R eady-to-use

Types de fichier pris en charge

CSV et Parquet (chargement local, Amazon S3 ou bases de données)

JSON (bases de données)

CSV et Parquet (chargement local, Amazon S3 ou bases de données)

JSON (bases de données)

JPG, PNG

PDF, JPG, PNG, TIFF

Taille maximale du fichier

5 Go (pour tous les fichiers du jeu de données)

5 Mo (pour tous les fichiers du jeu de données)

30 Mo par image

5 Mo par document

Nombre maximal de fichiers dans les jeux de données tabulaires

50

50

N/A

N/A

Nombre maximal de fichiers dans les jeux de données tabulaires pour un seul chargement manuel

20

20

N/A

N/A

Nombre maximal de colonnes

1 000

1 000

N/A

N/A

Nombre maximal d'entrées (lignes, images ou documents) pour les créations rapides

50 000 lignes

7500 lignes

5000 photos

N/A

Nombre maximal d'entrées (lignes, images ou documents) pour les créations standard

N/A

150 000 lignes

180 000 images

N/A

Nombre minimal d'entrées (lignes) pour les créations rapides

Catégorie 2 : 500 lignes

3 catégories et plus, numérique, de séries temporelles : N/A

N/A

N/A

N/A

Nombre minimal d'entrées (lignes, images ou documents) pour les créations standard

250 rangées

50 rangées

50 photos

N/A

Nombre minimal d'entrées (lignes ou images) par étiquette

N/A

25 rangées

25 rangées

N/A

Nombre minimal d'étiquettes

2 catégories : 2

3 catégories et plus : 3

Numérique, de séries temporelles : N/A

2

2

N/A

Taille minimale d'échantillon pour l'échantillonnage aléatoire

500

N/A

N/A

N/A

Taille maximale d'échantillon pour l'échantillonnage aléatoire

40 000

N/A

N/A

N/A

Nombre maximal d'étiquettes

2 catégories : 2

3 catégories et plus, numérique, de séries temporelles : N/A

1 000

1 000

N/A

*Les données de document ne sont actuellement prises en charge que pour les eady-to-use modèles R qui acceptent les données de document. Vous ne pouvez pas créer un modèle personnalisé avec des données de document.

Notez également les restrictions suivantes :

  • Pour les données tabulaires, Canvas interdit de sélectionner un fichier portant des extensions autres que .csv, .parquet, .parq et .pqt pour le chargement local et l'importation à partir d'Amazon S3. Les fichiers CSV peuvent utiliser n'importe quel séparateur commun ou personnalisé, et ils ne doivent pas comporter de caractères de nouvelle ligne, sauf lorsqu'ils indiquent une nouvelle ligne.

  • Pour les données tabulaires utilisant des fichiers Parquet, notez ce qui suit :

    • Les fichiers Parquet ne peuvent pas inclure de types complexes tels que les cartes et les listes.

    • Les noms de colonnes des fichiers Parquet ne peuvent pas contenir d'espaces.

    • En cas de compression, les fichiers Parquet doivent utiliser le type de compression gzip ou snappy. Pour plus d'informations sur les types de compressions précédents, consultez la documentation gzip et la documentation snappy.

  • Pour les données d'image, si vous avez des images non étiquetées, vous devez les étiqueter avant de créer votre modèle. Pour savoir comment attribuer des étiquettes aux images dans l'application Canvas, consultez Modification d'un jeu de données d'image.

  • Si vous définissez des mises à jour automatiques des jeux de données ou des configurations de prédiction par lots automatiques, vous ne pouvez créer qu'un total de 20 configurations dans votre application Canvas. Pour plus d’informations, consultez Gestion des automatisations.

Après avoir importé un jeu de données, vous pouvez consulter vos jeux de données à tout moment sur la page Jeux de données.

Importation de données tabulaires

Avec les jeux de données tabulaires, vous pouvez créer des modèles de prédiction catégorielle ou numérique, de prévision de séries temporelles ou de prédiction de texte. Consultez le tableau des limitations à la section Importation d'un jeu de données précédente pour vérifier que vos données répondent aux exigences relatives aux données tabulaires (notez que les exemples de limites de taille ne s'appliquent que lors de la prévisualisation de vos données avant de créer votre modèle).

Procédez comme suit pour importer un jeu de données tabulaire dans Canvas :

  1. Ouvrez votre application SageMaker Canvas.

  2. Dans le panneau de navigation de gauche, sélectionnez Datasets (Jeux de données).

  3. Choisissez Import data (Importer les données).

  4. Dans le menu déroulant, choisissez Tabular.

  5. Dans la boîte de dialogue contextuelle, dans le champ Nom du jeu de données, entrez un nom pour le jeu de données et choisissez Créer.

  6. Sur la page Créer un jeu de données tabulaire, ouvrez le menu déroulant Source de données.

  7. Choisissez votre source de données :

    • Pour charger des fichiers à partir de votre ordinateur, choisissez Chargement local.

    • Pour importer des données à partir d'une autre source, telle qu'un compartiment Amazon S3 ou une base de données Snowflake, recherchez votre source de données dans la barre de recherche de source de données. Choisissez ensuite la vignette correspondant à la source de données de votre choix.

      Note

      Vous ne pouvez importer de données qu'à partir des vignettes dont la connexion est active. Si vous souhaitez vous connecter à une source de données qui n'est pas disponible, contactez votre administrateur. Si vous êtes administrateur, consultez Connexion aux sources de données.

    La capture d'écran suivante illustre le menu déroulant Source de données.

    Capture d'écran montrant le menu déroulant Source de données et la recherche d'une source de données dans la barre de recherche.
  8. (Facultatif) Si vous vous connectez à une base de données Amazon Redshift ou Snowflake pour la première fois, une boîte de dialogue apparaît pour créer une connexion. Renseignez vos informations d'identification dans la boîte de dialogue et choisissez Créer une connexion. Si vous disposez déjà d'une connexion, choisissez-la.

  9. À partir de votre source de données, sélectionnez vos fichiers à importer. Pour le chargement local et l'importation à partir d'Amazon S3, vous pouvez sélectionner des fichiers. Pour Amazon S3 uniquement, vous avez également la possibilité de saisir directement l'URI ou l'ARN S3 de votre compartiment dans le champ Input S3 endpoint, puis de choisir les fichiers à importer. Pour les sources de base de données, vous pouvez drag-and-drop accéder aux tables de données dans le volet de navigation de gauche.

  10. (Facultatif) Pour les sources de données tabulaires qui prennent en charge les requêtes SQL (comme Amazon Redshift, Amazon Athena ou Snowflake), vous pouvez choisir Modifier SQL pour effectuer des requêtes SQL et joindre des tables avant de les importer. Pour plus d’informations, consultez Joignez les données que vous avez importées dans SageMaker Canvas.

    La capture d'écran suivante illustre la vue Modifier SQL pour une source de données Amazon Athena.

    Capture d'écran montrant une requête SQL dans la vue Modifier SQL pour les données Amazon Athena.
  11. Choisissez Aperçu du jeu de données pour prévisualiser vos données avant de les importer.

  12. Dans les paramètres d'importation, entrez le nom du jeu de données ou utilisez le nom du jeu de données par défaut.

  13. (Facultatif) Pour les données que vous importez depuis Amazon S3, les paramètres avancés s'affichent et vous pouvez remplir les champs suivants :

    1. Activez l'option Utiliser la première ligne comme en-tête si vous souhaitez utiliser la première ligne de votre ensemble de données comme nom de colonne. Si vous avez sélectionné plusieurs fichiers, cela s'applique à chaque fichier.

    2. Si vous importez un fichier CSV, dans le menu déroulant Encodage de fichier (CSV), sélectionnez le codage du fichier de votre ensemble de données. UTF-8est la valeur par défaut.

    3. Dans le menu déroulant Délimiteur, sélectionnez le séparateur qui sépare chaque cellule de vos données. Le délimiteur par défaut est,. Vous pouvez également spécifier un délimiteur personnalisé.

    4. Sélectionnez Détection multiligne si vous souhaitez que Canvas analyse manuellement l'intégralité de votre jeu de données à la recherche de cellules multilignes. Par défaut, cette option n'est pas sélectionnée et Canvas détermine s'il convient ou non d'utiliser le support multiligne en prélevant un échantillon de vos données. Cependant, Canvas risque de ne détecter aucune cellule multiligne dans l'échantillon. Si vous avez des cellules multilignes, nous vous recommandons de sélectionner l'option Détection multiligne pour forcer Canvas à vérifier la présence de cellules multilignes dans l'ensemble de votre jeu de données.

  14. Lorsque vous êtes prêt à importer vos données, choisissez Create dataset.

Lorsque votre jeu de données est importé dans Canvas, vos jeux de données sont répertoriés sur la page Jeux de données. À partir de cette page, vous pouvez Affichage des détails de votre jeu de données.

Lorsque le Statut de votre jeu de données indique Ready, Canvas a importé vos données avec succès et vous pouvez passer à la création d'un modèle.

Si vous disposez d'une connexion à une source de données, telle qu'une base de données Amazon Redshift ou un connecteur SaaS, vous pouvez revenir à cette connexion. Pour Amazon Redshift et Snowflake, vous pouvez ajouter une autre connexion en créant un autre jeu de données, en revenant à la page Importer des données et en choisissant la vignette Source de données pour cette connexion. Dans le menu déroulant, vous pouvez ouvrir la connexion précédente ou choisir Ajouter une connexion.

Note

Pour les plateformes SaaS, vous ne pouvez avoir qu'une seule connexion par source de données.

Importation des données d'image

Avec les jeux de données d'image, vous pouvez créer des modèles personnalisés de prédiction d'image à étiquette unique, qui prédisent une étiquette pour une image. Consultez les limitations à la section Importation d'un jeu de données précédente pour garantir que votre jeu de données d'image répond aux exigences relatives aux données d'image.

Note

Vous pouvez uniquement importer des jeux de données d'image à partir d'un chargement de fichiers locaux ou d'un compartiment Amazon S3. En outre, pour les jeux de données d'image, vous devez disposer d'au moins 25 images par étiquette.

Procédez comme suit pour importer un jeu de données d'image dans Canvas :

  1. Ouvrez votre application SageMaker Canvas.

  2. Dans le panneau de navigation de gauche, sélectionnez Datasets (Jeux de données).

  3. Choisissez Import data (Importer les données).

  4. Dans le menu déroulant, choisissez Image.

  5. Dans la boîte de dialogue contextuelle, dans le champ Nom du jeu de données, entrez un nom pour le jeu de données et choisissez Créer.

  6. Sur la page Importer, ouvrez le menu déroulant Source de données.

  7. Choisissez votre source de données . Pour charger des fichiers à partir de votre ordinateur, choisissez Chargement local. Pour importer des fichiers à partir d'Amazon S3, choisissez Amazon S3.

  8. À partir de votre ordinateur ou de votre compartiment Amazon S3, sélectionnez les images ou les dossiers d'images que vous souhaitez charger.

  9. Lorsque vous êtes prêt à importer vos données, choisissez Importer les données.

Lorsque votre jeu de données est importé dans Canvas, vos jeux de données sont répertoriés sur la page Jeux de données. À partir de cette page, vous pouvez Affichage des détails de votre jeu de données.

Lorsque le Statut de votre jeu de données indique Ready, Canvas a importé vos données avec succès et vous pouvez passer à la création d'un modèle.

Lorsque vous créez votre modèle, vous pouvez modifier votre jeu de données d'image, et attribuer ou réattribuer des étiquettes, ajouter des images ou supprimer des images de votre jeu de données. Pour savoir comment modifier un jeu de données d'image, consultez Modification d'un jeu de données d'image.

Importation de données de document

Les eady-to-use modèles R pour l'analyse des dépenses, l'analyse des documents d'identité, l'analyse des documents et les requêtes documentaires prennent en charge les données documentaires. Vous ne pouvez pas créer un modèle personnalisé avec des données de document.

Avec les ensembles de données documentaires, vous pouvez générer des prévisions pour l'analyse des dépenses, l'analyse des documents d'identité, l'analyse des documents et les eady-to-use modèles R de requêtes de documents. Consultez le tableau des limitations dans la section Création d'un jeu de données pour garantir que votre jeu de données de document répond aux exigences relatives aux données de document.

Note

Vous ne pouvez importer de jeux de données de document qu'à partir d'un chargement de fichiers locaux ou d'un compartiment Amazon S3.

Procédez comme suit pour importer un jeu de données de document dans Canvas :

  1. Ouvrez votre application SageMaker Canvas.

  2. Dans le panneau de navigation de gauche, sélectionnez Datasets (Jeux de données).

  3. Choisissez Import data (Importer les données).

  4. Dans le menu déroulant, choisissez Document.

  5. Dans la boîte de dialogue contextuelle, dans le champ Nom du jeu de données, entrez un nom pour le jeu de données et choisissez Créer.

  6. Sur la page Importer, ouvrez le menu déroulant Source de données.

  7. Choisissez votre source de données . Pour charger des fichiers à partir de votre ordinateur, choisissez Chargement local. Pour importer des fichiers à partir d'Amazon S3, choisissez Amazon S3.

  8. À partir de votre ordinateur ou de votre compartiment Amazon S3, sélectionnez les fichiers de document que vous souhaitez charger.

  9. Lorsque vous êtes prêt à importer vos données, choisissez Importer les données.

Lorsque votre jeu de données est importé dans Canvas, vos jeux de données sont répertoriés sur la page Jeux de données. À partir de cette page, vous pouvez Affichage des détails de votre jeu de données.

Lorsque le Statut de votre jeu de données indique Ready, Canvas a importé vos données avec succès.

Sur la page Jeux de données, vous pouvez choisir votre jeu de données pour le prévisualiser, ce qui vous permet d'afficher les 100 premiers documents de votre jeu de données.

Affichage des détails de votre jeu de données

Pour chaque jeu de données, vous pouvez afficher tous les fichiers qu'il contient, l'historique de ses versions et toutes ses configurations de mise à jour automatique. Sur la page Jeux de données, vous pouvez également lancer des actions telles que Mise à jour d'un jeu de données ou Création d'un modèle personnalisé.

Pour consulter les détails d'un jeu de données, procédez comme suit :

  1. Ouvrez l'application SageMaker Canvas.

  2. Dans le panneau de navigation de gauche, sélectionnez Datasets (Jeux de données).

  3. Dans la liste des jeux de données, choisissez votre jeu de données.

Dans l'onglet Données, vous pouvez voir un aperçu de vos données. Si vous choisissez Détails du jeu de données, vous pouvez voir tous les fichiers qu'il contient. Choisissez un fichier pour afficher uniquement les données de ce fichier dans l'aperçu. Pour les jeux de données d'image, l'aperçu ne montre que les 100 premières images de votre jeu de données.

Dans l'onglet Historique des versions, vous pouvez voir la liste de toutes les versions de votre jeu de données. Une nouvelle version est créée chaque fois que vous mettez à jour un jeu de données. Pour en savoir plus sur la mise à jour d'un jeu de données, consultez Mise à jour d'un jeu de données. La capture d'écran suivante illustre l'onglet Historique des versions de l'application Canvas.

Capture d'écran de l'onglet Historique des versions d'un jeu de données, avec la liste des versions du jeu de données.

Dans l'onglet Mises à jour automatiques, vous pouvez activer les mises à jour automatiques pour le jeu de données et définir une configuration pour mettre à jour votre ensemble de données à intervalles réguliers. Pour savoir comment configurer des mises à jour automatiques pour un jeu de données, consultez Configuration des mises à jour automatiques pour un jeu de données. La capture d'écran suivante illustre l'onglet Mises à jour automatiques dans lequel les mises à jour automatiques sont activées, ainsi qu'une liste des tâches de mise à jour automatique effectuées sur le jeu de données.

Capture d'écran de l'onglet Mises à jour automatiques d'un jeu de données qui montre que les mises à jour automatiques sont activées et une liste des tâches de mise à jour automatique.