Analyse de la qualité et de la quantité de données dans les ensembles de données - Amazon Personalize

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Analyse de la qualité et de la quantité de données dans les ensembles de données

Après avoir importé des données dans un ensemble de données d'interactions, d'utilisateurs ou d'articles, vous pouvez utiliser la console Amazon Personalize pour analyser les données. Vous pouvez en apprendre davantage sur vos données grâce à des informations sur les données et à des statistiques sur les colonnes et les lignes. Et vous pouvez découvrir les mesures que vous pouvez prendre pour améliorer vos données. Ces actions peuvent vous aider à répondre aux besoins en ressources d'Amazon Personalize, tels que les exigences en matière de formation des modèles, ou elles peuvent mener à de meilleures recommandations.

Important

Vous ne pouvez pas utiliser la console Amazon Personalize pour analyser les données d'une interaction Action ou d'un ensemble de données Actions.

Après avoir apporté les modifications recommandées, vous pouvez réimporter vos données et voir si vous avez résolu des problèmes ou amélioré les statistiques du jeu de données. Pour plus d'informations sur la mise à jour des données, consultezImporter davantage de données d'entraînement dans des ensembles de données.

Si vous ne trouvez aucune information, vos données correspondent aux attentes d'Amazon Personalize en matière de données. Vous pouvez analyser les données d'un groupe de jeux de données de domaine ou d'un groupe de jeux de données personnalisé.

Lors de la génération d'informations et du calcul des statistiques, Amazon Personalize prend en compte toutes les données en masse et diffusées en continu provenant d'utilisateurs non anonymes. Les événements provenant d'utilisateurs anonymes ne sont pas pris en compte tant que vous ne les associez pas à unuserId. Pour plus d’informations, consultez Enregistrement d'événements pour les utilisateurs anonymes.

Autorisations requises pour analyser les données

Si vous accordez aux utilisateurs un accès complet à Amazon Personalize, aucune modification des autorisations n'est requise. Si vous accordez à vos utilisateurs uniquement les autorisations requises pour effectuer une tâche dans Amazon Personalize, votre politique AWS Identity and Access Management (IAM) doit inclure les actions supplémentaires d'analyse des données suivantes.

  • personnaliser : CreateDataInsightsJob

  • personnaliser : ListDataInsightsJobs

  • personnaliser : DescribeDataInsightsJob

  • personnaliser : GetDataInsights

Informations sur les données

Vous trouverez ci-dessous les informations relatives aux données que vous pouvez générer dans Amazon Personalize.

Informations Action Jeu (s) de données associé (s)
Le jeu de données Interactions ne contient que X interactions. La formation des modèles nécessite un minimum de 1 000 interactions. Nous recommandons au moins 50 000. Importez Y enregistrements d'interactions uniques supplémentaires avant d'entraîner un modèle. Interactions entre les objets
Le jeu de données Interactions ne compte que X utilisateurs uniques ayant au moins deux interactions. La formation des modèles nécessite au moins 25 utilisateurs de ce type. Nous en recommandons au moins 1 000. Importez au moins 2 enregistrements d'interactions chacun pour Y utilisateurs supplémentaires. Interactions entre les objets
X % des éléments du jeu de données Items n'ont aucune interaction dans le jeu de données Interactions. Ils ne sont donc peut-être pas recommandés.

Assurez-vous d'importer toutes vos données d'interactions et de vérifier qu'il n'y a pas de différence entre les identifiants de vos éléments et ceux des ensembles de données d'interactions. Consultez les statistiques du jeu de données ci-dessous pour vos éléments et vos ensembles de données d'interactions afin de vous assurer que vous avez importé le nombre de lignes attendu. Si votre cas d'utilisation ou votre recette utilise l'exploration, modifiez la configuration d'exploration pour recommander d'autres éléments sans données d'interaction.

Interactions entre objets et objets
X % des utilisateurs du jeu de données Utilisateurs n'ont aucune interaction dans le jeu de données Interactions. Ces utilisateurs recevront des recommandations pour les articles les plus populaires.

Assurez-vous d'importer toutes vos données d'interactions et de vérifier qu'il n'y a pas de différence entre les identifiants de vos utilisateurs et ceux des ensembles de données d'interactions. Consultez les statistiques du jeu de données ci-dessous pour vos utilisateurs et vos ensembles de données d'interactions afin de vous assurer que vous avez importé le nombre de lignes attendu. Importez toutes les interactions supplémentaires afin qu'un plus grand nombre d'utilisateurs disposent de données sur les interactions.

Interactions avec les objets et utilisateurs
L'<Users or Items or Interactions>ensemble de données contient X % de lignes avec une valeur manquante. Cela peut avoir une incidence négative sur les recommandations. Nous recommandons que tous les champs obligatoires et facultatifs soient remplis à au moins 70 %.

Importez des enregistrements complets supplémentaires, ou réimportez des données sans lignes incomplètes, ou réimportez des données avec les valeurs manquantes remplacées par des données de remplacement, telles que la moyenne pour les colonnes numériques ou la valeur la plus courante pour les colonnes catégorielles.

N’importe quel compte
Les colonnes suivantes de l'<datasetType>ensemble de données sont complétées à moins de 70 % : <ColumnName, ColumnName... >. Si ces données sont incluses dans la formation, elles peuvent avoir une incidence négative sur les recommandations. Nous recommandons que les colonnes qui autorisent les valeurs nulles soient remplies à au moins 70 %.

Importez des enregistrements complets supplémentaires, ou réimportez des données sans lignes incomplètes, ou réimportez des données avec les valeurs manquantes remplacées par des données de remplacement, telles que la moyenne pour les colonnes numériques ou la valeur la plus courante pour les colonnes catégorielles.

N’importe quel compte
Les colonnes (numériques) suivantes présentent des valeurs aberrantes : <ColumnName, ColumnName... >. Les valeurs aberrantes ne constituent pas toujours un problème, mais elles ont parfois un impact négatif sur les recommandations.

À l'aide des statistiques des colonnes ci-dessous, vérifiez si les valeurs minimale et maximale de ces colonnes correspondent à vos attentes. Si ces valeurs sont inattendues, vérifiez que les données de ces colonnes ne sont pas inexactes et examinez votre collecte et votre traitement des données pour détecter tout problème.

N’importe quel compte
Les colonnes suivantes comportent plus de 1000 catégories possibles : <ColumnName, ColumnName... >. Si ces données sont incluses dans la formation, elles peuvent avoir un impact négatif sur les recommandations : <ColumnName, ColumnName... >.

Vérifiez vos données catégorielles pour détecter les problèmes, tels que les doublons de catégories dus à des variations orthographiques. Corrigez les inexactitudes et importez à nouveau les données.

N’importe quel compte
Les colonnes de métadonnées textuelles suivantes sont complétées à moins de 85 % et ne seront pas utilisées pour l'apprentissage des modèles : <ColumnName, ColumnName... >.

Importez des lignes supplémentaires ou importez à nouveau les lignes avec les données de texte pour ces colonnes.

Éléments
Le jeu de données Interactions contient plus de 10 types d'événements uniques, ce qui entraînera l'échec de l'entraînement du modèle.

Vérifiez que votre colonne de type d'événement ne contient pas d'inexactitudes, telles que des types d'événements dupliqués dus à des variations orthographiques. Supprimez les types d'événements inutiles et réimportez les données.

Interactions entre les objets
Le jeu de données Interactions possède le même horodatage pour tous les enregistrements. Si vous utilisez une recette USER_SEGMENTATION et que tous les enregistrements ont le même horodatage, l'apprentissage du modèle échouera.

Vérifiez que vos données ne présentent aucun problème d'horodatage et remplacez les horodatages dupliqués par des horodatages uniques.

Interactions entre les objets

Afficher les informations et les statistiques des jeux de données

Pour consulter des informations et des statistiques sur vos données dans les ensembles de données Amazon Personalize, accédez à vos ensembles de données dans la console Amazon Personalize et choisissez Exécuter l'analyse.

Pour consulter les informations et les statistiques
  1. Ouvrez la console Amazon Personalize à l'adresse https://console.aws.amazon.com/personalize/home et connectez-vous à votre compte.

  2. Sur la page Groupes de jeux de données, choisissez votre groupe de jeux de données.

  3. Dans le volet de navigation, sous Ensembles de données, sélectionnez Analyse des données.

  4. En haut à droite, sélectionnez Exécuter l'analyse. Amazon Personalize commence à analyser vos données. Cela peut prendre jusqu'à 15 minutes. En cas de succès, les résultats apparaissent sur cette page.

  5. Dans Insights, utilisez ce qui suit pour filtrer les informations qui apparaissent.

    • Pour trouver des informations qui incluent une langue spécifique, entrez vos critères dans Find Insight. Au fur et à mesure que vous saisissez du texte, la liste est mise à jour pour inclure uniquement les informations dont la chaîne est exacte dans l'aperçu ou l'action recommandée.

    • Pour filtrer les informations par type de jeu de données, remplacez Tous les ensembles de données par le type de jeu de données spécifique. La liste est mise à jour pour inclure uniquement les informations relatives à cet ensemble de données.

  6. Pour consulter les statistiques d'un ensemble de données, procédez comme suit.

    • Pour afficher les informations générales et les statistiques relatives à un ensemble de données, telles que le nombre de lignes, d'utilisateurs uniques et d'éléments uniques dans un jeu de données Interactions, développez la section dédiée à l'ensemble de données.

    • Pour afficher les statistiques détaillées d'une colonne, développez la section du jeu de données, choisissez Statistiques au niveau de la colonne et cliquez sur le bouton radio correspondant à la colonne.

  7. Corrigez tout problème lié à vos données, réimportez-les et effectuez une autre analyse pour vérifier. Pour plus d'informations sur la réimportation de données, consultezImporter davantage de données d'entraînement dans des ensembles de données.