Notes de mise à jour - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Notes de mise à jour

Data Wrangler est régulièrement mis à jour avec de nouvelles fonctions et correctifs de bogues. Pour mettre à niveau la version de Data Wrangler que vous utilisez dans Studio Classic, suivez les instructions de. Arrêter et mettre à jour les applications Studio Classic

Notes de mise à jour

31 août 2023

Nouvelle fonctionnalité :

Vous pouvez désormais créer un rapport sur la qualité des données et les informations sur l'ensemble de votre ensemble de données. Pour de plus amples informations, veuillez consulter Obtenir des informations sur les données et la qualité des données.

20/05/2023

Nouvelle fonctionnalité :

Vous pouvez désormais importer vos données depuis Salesforce Data Cloud. Pour de plus amples informations, veuillez consulter Importer des données depuis Salesforce Data Cloud.

18/04/2023

Nouvelle fonctionnalité :

Vous pouvez désormais obtenir vos données dans un format qu'Amazon Personalize peut interpréter. Pour de plus amples informations, veuillez consulter Mappage de colonnes pour Amazon Personalize.

01/03/2023

Nouvelle fonctionnalité :

Vous pouvez désormais utiliser Hive pour importer vos données depuis AmazonEMR. Pour de plus amples informations, veuillez consulter Importer des données depuis Amazon EMR.

10/12/2022

Nouvelle fonctionnalité :

Vous pouvez désormais exporter votre flux Data Wrangler vers un point de terminaison d'inférence. Pour de plus amples informations, veuillez consulter Exporter vers un point de terminaison d'inférence.

Nouvelle fonctionnalité :

Vous pouvez désormais utiliser un widget de bloc-notes interactif pour la préparation des données. Pour de plus amples informations, veuillez consulter Utilisez un widget interactif de préparation des données dans un bloc-notes Amazon SageMaker Studio Classic pour obtenir des informations sur les données.

Nouvelle fonctionnalité :

Vous pouvez désormais importer des données à partir de plateformes SaaS. Pour de plus amples informations, veuillez consulter Importer des données à partir de plateformes de logiciel en tant que service (SaaS).

10/12/2022

Nouvelle fonctionnalité :

Vous pouvez désormais réutiliser des flux de données pour différents ensembles de données. Pour de plus amples informations, veuillez consulter Réutilisation de flux de données pour différents jeux de données.

10/05/2022

Nouvelle fonctionnalité :

Vous pouvez désormais utiliser l'analyse en composantes principales (PCA) comme transformation. Pour de plus amples informations, veuillez consulter Réduire la dimensionnalité dans un jeu de données.

10/05/2022

Nouvelle fonctionnalité :

Vous pouvez désormais adapter les paramètres de votre flux Data Wrangler. Pour de plus amples informations, veuillez consulter Exporter.

10/03/2022

Nouvelle fonctionnalité :

Vous pouvez désormais déployer des modèles depuis votre flux Data Wrangler. Pour de plus amples informations, veuillez consulter Entraînement automatique des modèles sur votre flux de données.

20/09/2022

Nouvelle fonctionnalité :

Vous pouvez désormais définir des durées de conservation des données dans Athena. Pour de plus amples informations, veuillez consulter Importer des données depuis Athena.

9/06/2022

Nouvelle fonctionnalité :

Vous pouvez désormais utiliser Amazon SageMaker Autopilot pour entraîner un modèle directement à partir de votre flux Data Wrangler. Pour de plus amples informations, veuillez consulter Entraînement automatique des modèles sur votre flux de données.

06/05/2022

Nouvelle fonctionnalité :

Vous pouvez désormais utiliser des instances m5 et r5 supplémentaires. Pour de plus amples informations, veuillez consulter instances.

27/04/2022

Nouvelles fonctionnalités :

01/04/2022

Nouvelle fonctionnalité :

Vous pouvez désormais utiliser Databricks comme source de données. Pour de plus amples informations, veuillez consulter Importer des données depuis Databricks () JDBC.

02/02/2022

Nouvelles fonctionnalités :

  • Vous pouvez désormais exporter à l'aide de nœuds de destination. Pour plus d’informations, consultez Exporter.

  • Vous pouvez importer ORC des JSON fichiers. Pour plus d'informations sur les types de fichiers, consultez Importer.

  • Data Wrangler prend désormais en charge l'utilisation de la SMOTE transformation. Pour de plus amples informations, veuillez consulter Équilibrage des données.

  • Data Wrangler prend désormais en charge l'encodage des similarités pour les données catégorielles. Pour de plus amples informations, veuillez consulter Encodage des similarités.

  • Data Wrangler prend désormais en charge la JSON désimbrication des données. Pour de plus amples informations, veuillez consulter Unnest Data JSON.

  • Data Wrangler prend désormais en charge l'extension des valeurs d'un tableau dans des colonnes distinctes. Pour de plus amples informations, veuillez consulter Éclatement du tableau.

  • Data Wrangler permet désormais de contacter l'équipe de service si vous rencontrez des problèmes. Pour de plus amples informations, veuillez consulter Dépannage.

  • Data Wrangler prend en charge la modification et la suppression d'étapes du flux de données. Pour plus d’informations, consultez Suppression d'une étape de votre flux de données et Modification d'une étape dans votre flux Data Wrangler.

  • Vous pouvez désormais effectuer des transformations sur plusieurs colonnes. Pour de plus amples informations, veuillez consulter Transformation de données.

  • Data Wrangler prend désormais en charge les identifications d'allocation des coûts. Pour plus d'informations, consultez Utilisation des balises de répartition des coûts.

16/10/2021

Nouvelle fonctionnalité :

Data Wrangler prend désormais en charge les groupes de travail Athena. Pour de plus amples informations, veuillez consulter Importer des données depuis Athena.

06/10/2021

Nouvelle fonctionnalité :

Data Wrangler prend désormais en charge la transformation des données en séries chronologiques. Pour de plus amples informations, veuillez consulter Transformer les séries temporelles.

15/07/2021

Nouvelles fonctionnalités :

  • Snowflake et Data Wrangler est désormais pris en charge. Vous pouvez utiliser Snowflake comme source de données dans Data Wrangler.

  • Ajout de la prise en charge du délimiteur de champs personnalisé dans. CSV Maintenant, la virgule, les deux-points, le point-virgule, la barre verticale (|) et la tabulation sont pris en charge.

  • Vous pouvez désormais exporter les résultats directement vers Amazon S3.

  • Ajout de nouveaux analyseurs de multicolinéarité : Facteurs d'inflation de la variance, Analyse en composantes principales et Sélection de caractéristiques par lasso.

Améliorations :

  • Les graphiques d'analyse ne peuvent plus être emballés avec des étiquettes qui se chevauchent.

Correctifs de bogue :

  • L'encodeur à chaud gère la chaîne vide normalement.

  • Correction des plantages qui se produisaient lorsqu'un nom de colonne de dataframe contenait des points.

26/04/2021

Améliorations :

  • Ajout du support pour les tâches de traitement distribuées. Vous pouvez utiliser plusieurs instances lors de l'exécution d'une tâche de traitement.

  • La tâche de traitement Data Wrangler fusionne désormais automatiquement les petites sorties lorsque la taille estimée du résultat est inférieure à 1 gigaoctet.

  • Feature Store Notebook : amélioration des performances d'ingestion du Feature Store

  • Les tâches de traitement Data Wrangler utilisent désormais la version 1.x comme balise de conteneur faisant autorité pour les futures versions.

Correctifs de bogue :

  • Correction des problèmes de rendu pour l'histogramme à facettes.

  • Correction de l'exportation vers la tâche de traitement pour prendre en charge les colonnes de type vectoriel.

  • Correction de l'opérateur Extract using regex pour renvoyer le premier groupe capturé si un ou plusieurs existent dans l'expression régulière, ou regex.

08/02/2021

Nouvelles fonctionnalités :

  • Les flux Data Wrangler prennent en charge plusieurs instances.

  • Export vers Data Wrangler Job Notebook mis à jour pour utiliser SageMaker SDK la version 2.20.0.

  • Export vers Pipeline Notebook mis à jour pour utiliser la version SageMaker SDK 2.20.0.

  • Export vers Pipeline Notebook mis à jour pour ajouter un exemple de XGBoost formation en tant qu'étape facultative.

Améliorations :

  • Pour améliorer les performances, l'importation de CSV fichiers contenant plusieurs lignes dans un seul champ n'est plus prise en charge.

Correctifs de bogue :

  • Correction du problème d'inférence de type dans le modèle rapide.

  • Correction du bogue de métrique de biais dans les rapports de biais.

  • Correction de la transformation de texte enrichi pour fonctionner avec des colonnes avec des valeurs manquantes.

  • Correction des visualisations intégrées de l'histogramme et du diagramme de points pour travailler avec des jeux de données contenant des colonnes de type tableau.

  • La requête Athena s'exécute à nouveau si l'ID d'exécution de la requête a expiré.