Transformation des données - Amazon Personalize

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Transformation des données

Pour transformer les données dans Data Wrangler, vous devez ajouter une étape de transformation à votre flux de données. Data Wrangler inclut plus de 300 transformations que vous pouvez utiliser pour préparer vos données, y compris une colonne de carte pour la transformation Amazon Personalize. Vous pouvez également utiliser les transformations générales de Data Wrangler pour résoudre des problèmes tels que les valeurs aberrantes, les problèmes de type et les valeurs manquantes.

Une fois que vous avez fini de transformer vos données, vous pouvez les analyser avec Data Wrangler. Ou, si vous avez terminé de préparer vos données dans Data Wrangler, vous pouvez les traiter et les importer dans Amazon Personalize. Pour plus d'informations sur l'analyse des données, consultezGénération de visualisations et d'informations sur les données. Pour plus d'informations sur le traitement et l'importation de données, consultezTraitement des données et importation de celles-ci dans Amazon Personalize.

Colonnes de mappage pour Amazon Personalize

Pour transformer vos données afin qu'elles répondent aux exigences d'Amazon Personalize, vous devez ajouter les colonnes de carte pour la transformation Amazon Personalize et mapper vos colonnes aux champs obligatoires et facultatifs d'Amazon Personalize.

Pour utiliser les colonnes de la carte pour la transformation Amazon Personalize
  1. Choisissez + pour votre dernière transformation, puis choisissez Ajouter une transformation. Si vous n'avez pas ajouté de transformation, sélectionnez le signe + pour la transformation des types de données. Data Wrangler ajoute automatiquement cette transformation à votre flux.

  2. Choisissez Add step (Ajouter une étape).

  3. Choisissez Transforms for Amazon Personalize. Les colonnes de carte pour la transformation Amazon Personalize sont sélectionnées par défaut.

  4. Utilisez les champs de transformation pour associer vos données aux attributs Amazon Personalize requis.

    1. Choisissez le type de jeu de données qui correspond à vos données (interactions, éléments ou utilisateurs).

    2. Choisissez votre domaine (ECOMMERCE, VIDEO _ON_ DEMAND ou personnalisé). Le domaine que vous choisissez doit correspondre au domaine que vous avez spécifié lors de la création de votre groupe de jeux de données.

    3. Choisissez les colonnes qui correspondent aux champs obligatoires et facultatifs pour Amazon Personalize. Par exemple, pour la colonne Item_ID, choisissez la colonne de vos données qui stocke les informations d'identification uniques pour chacun de vos articles.

      Chaque champ de colonne est filtré par type de données. Seules les colonnes de vos données qui répondent aux exigences relatives aux types de données Amazon Personalize sont disponibles. Si vos données ne sont pas du type requis, vous pouvez utiliser la transformation Parse Value as Type Data Wrangler pour les convertir.

Transformations de General Data Wrangler

Les transformations générales de Data Wrangler suivantes peuvent vous aider à préparer les données pour Amazon Personalize :

  • Conversion du type de données : si votre champ ne figure pas parmi les options possibles dans les colonnes de la carte pour la transformation Amazon Personalize, vous devrez peut-être convertir son type de données. Le Data Wrangler transforme Parse Value as Type pour vous aider à convertir vos données. Vous pouvez également utiliser la transformation des types de données que Data Wrangler ajoute par défaut lorsque vous créez un flux. Pour utiliser cette transformation, vous devez sélectionner le type de données dans les listes déroulantes Type, choisir Aperçu, puis choisir Mettre à jour.

    Pour plus d'informations sur les types de données requis pour les champs, consultez la section relative à votre domaine et au type de jeu de données dansSchémas.

  • Gestion des valeurs manquantes et des valeurs aberrantes : si vous générez des informations sur les valeurs manquantes ou les valeurs aberrantes, vous pouvez utiliser le Data Wrangler qui transforme les transformations Handle Outliers et Handle Missing Values pour résoudre ces problèmes.

  • Transformations personnalisées : avec Data Wrangler, vous pouvez créer vos propres transformations avec Python (fonction définie par l'utilisateur) PySpark, pandas ou (). PySpark SQL Vous pouvez utiliser une transformation personnalisée pour effectuer des tâches telles que la suppression de colonnes dupliquées ou le regroupement par colonnes. Pour plus d'informations, consultez Custom Transforms dans le manuel Amazon SageMaker Developer Guide.