Résoudre les problèmes relatifs aux tâches de traitement SageMaker Clarify - Amazon SageMaker

Résoudre les problèmes relatifs aux tâches de traitement SageMaker Clarify

En cas d'échecs avec les tâches de traitement SageMaker Clarify, veuillez consulter les scénarios suivants pour identifier le problème.

Note

Le motif de l'échec et le message de sortie contiendront des messages descriptifs et des exceptions, le cas échéant, durant l'exécution. Des paramètres invalides ou manquants sont l'une des raisons les plus communes. Si les messages sont peu clairs, déroutants ou trompeurs, ou si vous ne parvenez pas à trouver une solution, envoyez des commentaires.

Impossible de terminer la tâche de traitement

S'il est impossible de terminer la tâche de traitement, essayez l'une des actions suivantes :

  • Inspectez les journaux des tâches directement dans le bloc-notes où vous avez exécuté la tâche. Les journaux des tâches se trouvent dans la sortie de la cellule du bloc-notes où vous avez lancé l'exécution.

  • Inspectez les journaux des tâches dans CloudWatch.

  • Ajoutez la ligne suivante dans votre bloc-notes pour décrire la dernière tâche de traitement et rechercher la raison de l'échec et le message de sortie :

    • clarify_processor.jobs[-1].describe()

  • Exécutez la commande de l'AWS CLI suivante pour décrire la tâche de traitement et rechercher la raison d'échec et le message de sortie :

    • aws sagemaker describe-processing-job —processing-job-name <processing-job-id>

La tâche de traitement se termine sans donner de résultats, et vous recevez un message d'avertissement CloudWatch

Si la tâche de traitement se termine sans donner de résultat et que le message d'avertissement « Signal 15 received, cleaning up (Signal 15 reçu, nettoyage) » apparaît dans les journaux CloudWatch Logs, cela indique que la tâche s'est arrêtée en raison d'une demande du client qui a appelé l'API StopProcessingJob ou que le temps imparti pour accomplir la tâche n'était pas suffisant. Dans ce dernier cas, vérifiez le temps d'exécution maximal dans la configuration de la tâche (max_runtime_in_seconds) et augmentez-le selon les besoins.

Message d'erreur signalant une configuration d'analyse non valide

  • Si le message d'erreur « Unable to load analysis configuration as JSON (Impossible de charger la configuration d'analyse en tant que JSON) » apparaît, cela signifie que le fichier d'entrée de configuration d'analyse pour la tâche de traitement ne contient pas d'objet JSON valide. Vérifiez la validité de l'objet JSON à l'aide d'un linter JSON.

  • Si le message d'erreur « Analysis configuration schema validation error (Erreur de validation du schéma de configuration de l'analyse) » apparaît, cela signifie que le fichier d'entrée de configuration d'analyse pour la tâche de traitement contient des champs inconnus ou des types non valides pour certaines valeurs de champ. Examinez les paramètres de configuration dans le fichier et vérifiez-les par rapport aux paramètres répertoriés dans le fichier de spécification de la configuration.

Le calcul des métriques de biais échoue pour plusieurs métriques ou pour la totalité des métriques

Si l'un des messages d'erreur suivants apparaît : « No Label values are present in the predicted Label Column, Positive Predicted Index Series contains all False values (Aucune valeur d'étiquette n'est présente dans la colonne d'étiquette prédite, la série d'index prédits positifs ne contient que des valeurs FAUX) » ou « Predicted Label Column series datatype is not the same as Label Column series (Le type de données de la série de colonnes d'étiquettes prédites est différent de celui de la série de colonnes d'étiquettes) », essayez ce qui suit :

  • Vérifiez que le jeu de données utilisé est correct.

  • Vérifiez si la taille du jeu de données est trop petite ; par exemple, elle ne contient que quelques lignes. Cela peut conduire à ce que les sorties du modèle aient la même valeur ou que le type de données soit inféré de façon incorrecte.

  • Vérifiez si l'étiquette ou la facette est traitée comme étant continue ou catégorique. SageMaker Clarify se sert de l'heuristique pour déterminer le DataType. Pour les métriques de biais post-entraînement, le type de données renvoyé par le modèle peut ne pas correspondre à ce qui se trouve dans le jeu de données, ou SageMaker Clarify peut ne pas le transformer correctement.

    • Le rapport de biais doit indiquer une valeur unique pour les colonnes catégoriques ou un intervalle pour les colonnes continues.

    • Par exemple, si 0.0 et 1.0 sont les valeurs flottantes d'une colonne, cette dernière sera traitée comme étant continue même si le nombre de valeurs uniques est faible.

Inadéquation entre la configuration de l'analyse et l'entrée/sortie des données/du modèle

  • Vérifiez que le format de ligne de référence dans la configuration de l'analyse est identique au format du jeu de données.

  • Si le message d'erreur « Could not convert string to float (Impossible de convertir la chaîne en valeurs flottantes) » apparaît, vérifiez que le format est correctement spécifié. Il pourrait également indiquer que le format des prévisions du modèle est différent de celui de la colonne d'étiquette, ou que la configuration de l'étiquette ou des probabilités est incorrecte.

  • Si l'un des messages d'erreur suivants apparaît : « Unable to locate the facet (Impossible de localiser la facette) » ou « Headers must contain label (Les en-têtes doivent contenir l'étiquette) » ou « Headers in config do not match with the number of columns in the dataset (Les en-têtes de la configuration ne correspondent pas au nombre de colonnes du jeu de données) » ou « Feature names not found (Noms de fonctions introuvables) », vérifiez que les en-têtes correspondent aux colonnes.

  • Si le message d'erreur « Data must contain features (Les données doivent contenir des fonctions) » apparaît, vérifiez le modèle de contenu pour JSONLines et comparez-le à l'exemple de jeu de données, si disponible.

Le modèle renvoie « 500 Internal Server Error (500 Erreur de serveur interne) » ou le conteneur revient aux prédictions par enregistrement en raison d'une erreur de modèle

Si le message d'erreur « Fallback to per-record prediction because of model error (Repli à la prédiction par enregistrement en raison d'une erreur de modèle) » apparaît, cela peut indiquer que le modèle ne peut pas gérer la taille du lot, ou qu'il est limité, ou qu'il n'accepte tout simplement pas l'entrée transmise par le conteneur en raison de problèmes de sérialisation. Vous devez consulter les journaux CloudWatch Logs pour le point de terminaison SageMaker et rechercher des messages d'erreur ou des tracebacks. Dans les cas de limitation de modèle, il peut être utile d'utiliser un type d'instance différent ou d'augmenter le nombre d'instances pour le point de terminaison.

Rôle d'exécution non valide

Cela indique que le rôle fourni est incorrect ou ne dispose pas des autorisations requises. Vérifiez le rôle et les autorisations y afférant, qui ont été utilisés pour configurer la tâche de traitement, et vérifiez la politique d'autorisation et d'approbation pour le rôle.

Échec du téléchargement des données

Cela indique que les entrées de tâche n'ont pas pu être téléchargées pour démarrer la tâche. Vérifiez le nom du compartiment, ainsi que les autorisations pour le jeu de données et les entrées de configuration.

Connexion à SageMaker impossible

Cela indique que la tâche n'a pas pu atteindre les points de terminaison de service SageMaker. Vérifiez les paramètres de configuration réseau pour la tâche de traitement et vérifiez la configuration du VPC.