Journaux pour les algorithmes intégrés - Amazon SageMaker

Journaux pour les algorithmes intégrés

Les algorithmes Amazon SageMaker génèrent des journaux Amazon CloudWatch Logs qui fournissent des informations détaillées sur le processus d'entraînement. Pour afficher les journaux, dans la console de gestion AWS, choisissez CloudWatch, puis Logs (Journaux) et le groupe de journaux /aws/sagemaker/TrainingJobs. Chaque tâche d'entraînement a un flux de journaux par nœud sur lequel elle a été entraînée. Le nom du flux de journaux commence par la valeur spécifiée dans le paramètre TrainingJobName lors de la création de la tâche.

Note

Si une tâche échoue et que les journaux n'apparaissent pas dans CloudWatch, il est probable qu'une erreur se soit produite avant le début de l'entraînement. Parmi les raisons pouvant expliquer cette erreur, on peut citer la spécification de la mauvaise image d'entraînement ou du mauvais emplacement S3.

Le contenu des journaux varie selon les algorithmes. Cependant, vous pouvez généralement y trouver les informations suivantes :

  • Confirmation des arguments fournis au début du journal

  • Erreurs qui se sont produites au cours de l'entraînement

  • Mesure des performances numériques ou de la précision d'un algorithme

  • Horodatages de l'algorithme et principales étapes au sein de l'algorithme

Erreurs courantes

Si une tâche d'entraînement échoue, certains détails sur l'échec sont fournis par la valeur FailureReason renvoyée dans la description de la tâche d'entraînement, comme suit :

sage = boto3.client('sagemaker') sage.describe_training_job(TrainingJobName=job_name)['FailureReason']

D'autres informations sont signalées uniquement dans CloudWatch Logs. Les erreurs courantes sont les suivantes :

  1. Spécification erronée d'un hyperparamètre ou spécification d'un hyperparamètre qui n'est pas valide pour l'algorithme.

    À partir du journal CloudWatch

    [10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
  2. Spécification d'une valeur non valide pour un hyperparamètre

    FailureReason

    AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\

    FailureReason

    [10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
  3. Format de fichier protobuf inapproprié

    À partir du journal CloudWatch

    [10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784