Utilisation des exemples de jeux de données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation des exemples de jeux de données

SageMaker Canvas fournit des exemples d'ensembles de données répondant à des cas d'utilisation uniques afin que vous puissiez commencer à créer, à former et à valider des modèles rapidement sans écrire de code. Les cas d'utilisation associés à ces ensembles de données mettent en évidence les fonctionnalités de SageMaker Canvas, et vous pouvez tirer parti de ces ensembles de données pour commencer à créer des modèles. Vous trouverez les exemples de jeux de données sur la page Ensembles de données de votre application SageMaker Canvas.

Exemples de jeux de données

Les ensembles de données suivants sont les exemples fournis par défaut par SageMaker Canvas. Ces jeux de données couvrent des cas d'utilisation tels que la prédiction de prix de logements, de défauts de remboursement et de réadmission de patients diabétiques, les prédictions de ventes, la prédiction de défaillances de machines pour rationaliser la maintenance prédictive dans des unités de fabrication, et la génération de prédictions dans la chaîne d'approvisionnement pour le transport et la logistique. Les ensembles de données sont stockés dans le sample_dataset dossier du compartiment Amazon S3 par défaut SageMaker créé pour votre compte dans une région.

  • canvas-sample-diabetic-readmission.csv : Cet ensemble de données contient des données historiques, notamment plus de quinze fonctionnalités relatives aux résultats des patients et des hôpitaux. Vous pouvez utiliser ce jeu de données pour prédire si des patients diabétiques à haut risque sont susceptibles d'être réadmis à l'hôpital dans les 30 jours après leur sortie, après 30 jours ou pas du tout. Utilisez la colonne readmitted comme colonne cible et utilisez le type de modèle de prédiction de catégorie 3+ avec ce jeu de données. Pour en savoir plus sur la création d'un modèle avec ce jeu de données, consultez la page de l'atelier SageMaker Canvas. Cet ensemble de données a été obtenu à partir du UCIMachine Learning Repository.

  • canvas-sample-housing.csv : Ce jeu de données contient des données sur les caractéristiques liées au prix d'un logement donné. Vous pouvez utiliser ce jeu de données pour prédire les prix des logements. Utilisez la colonne median_house_value comme colonne cible et utilisez le type de modèle de prédiction numérique avec cet ensemble de données. Pour en savoir plus sur la création d'un modèle avec ce jeu de données, consultez la page de l'atelier SageMaker Canvas. Il s'agit de l'ensemble de données sur le logement en Californie obtenu à partir du StatLib référentiel.

  • canvas-sample-loans.csv : Cet ensemble de données contient des données complètes sur tous les prêts émis entre 2007 et 2011, y compris le statut actuel des prêts et les dernières informations de paiement. Vous pouvez utiliser ce jeu de données pour prédire si un client va rembourser un prêt. Utilisez la colonne loan_status comme colonne cible et utilisez le type de modèle de prédiction de catégorie 3+ avec ce jeu de données. Pour en savoir plus sur la création d'un modèle avec ce jeu de données, consultez la page de l'atelier SageMaker Canvas. Ces données utilisent les LendingClub données obtenues auprès de Kaggle.

  • canvas-sample-maintenance.csv : Ce jeu de données contient des données sur les caractéristiques liées à un type de défaillance de maintenance donné. Vous pouvez utiliser ce jeu de données pour prédire les défaillances qui se produiront à l'avenir. Utilisez la colonne Failure Type comme colonne cible et utilisez le type de modèle de prédiction de catégorie 3+ avec ce jeu de données. Pour en savoir plus sur la création d'un modèle avec ce jeu de données, consultez la page de l'atelier SageMaker Canvas. Cet ensemble de données a été obtenu à partir du UCIMachine Learning Repository.

  • canvas-sample-shipping-logs.csv : Cet ensemble de données contient les données d'expédition complètes pour tous les produits livrés, y compris le délai estimé, la priorité d'expédition, le transporteur et l'origine. Vous pouvez utiliser ce jeu de données pour prédire l'heure d'arrivée estimée de l'expédition en nombre de jours. Utilisez la ActualShippingDayscolonne comme colonne cible et utilisez le type de modèle de prédiction numérique avec cet ensemble de données. Pour en savoir plus sur la création d'un modèle à partir de ces données, consultez la page de l'atelier SageMaker Canvas. Il s'agit d'un jeu de données synthétique créé par Amazon.

  • canvas-sample-sales-forecasting.csv : Ce jeu de données contient des séries chronologiques historiques sur les ventes des magasins de détail. Vous pouvez utiliser ce jeu de données pour prévoir les ventes d'un magasin de détail particulier. Utilisez la colonne des ventes comme colonne cible et utilisez le type de modèle de prévision des séries chronologiques avec cet ensemble de données. Pour en savoir plus sur la création d'un modèle avec ce jeu de données, consultez la page de l'atelier SageMaker Canvas. Il s'agit d'un jeu de données synthétique créé par Amazon.

Réimportation d'un exemple de jeu de données supprimé

Si vous ne souhaitez plus utiliser les exemples de jeux de données, vous pouvez les supprimer de la page Ensembles de données de votre application SageMaker Canvas. Cependant, ces jeux de données sont toujours stockés dans le compartiment Amazon S3 que vous avez spécifié comme emplacement de stockage Canvas. Vous pourrez donc toujours y accéder ultérieurement.

Si vous avez utilisé le compartiment Amazon S3 par défaut, le nom du compartiment suit le modèle sagemaker-{region}-{account ID}. Vous pouvez trouver les exemples de jeux de données dans le chemin d'accès au répertoire Canvas/sample_dataset.

Si vous supprimez un exemple de jeu de données de votre application SageMaker Canvas et souhaitez y accéder à nouveau, procédez comme suit.

  1. Accédez à la page Ensembles de données de votre application SageMaker Canvas.

  2. Choisissez Import data (Importer les données).

  3. Dans la liste des compartiments Amazon S3, sélectionnez le compartiment que vous avez défini comme emplacement de stockage Canvas. Si vous utilisez le compartiment Amazon S3 SageMaker créé par défaut, il suit le modèle sagemaker-{region}-{account ID} de dénomination.

  4. Sélectionnez le dossier Canvas.

  5. Sélectionnez le dossier sample_dataset, qui contient tous les exemples de jeux de données pour Canvas. SageMaker

  6. Sélectionnez le jeu de données que vous souhaitez importer, puis choisissez Import data (Importer les données).