Logs für Integrierte Algorithmen - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Logs für Integrierte Algorithmen

Amazon SageMaker Algorithmen produzieren Amazon CloudWatch Logs, die detaillierte Informationen über den Trainingsprozess enthalten. Um die Logs zu sehen, finden Sie imAWSManagement Console, wählenCloudWatch, wählenLogs (Protokolle), und dann wähle /aws/sagemaker/TrainingJobs Protokollgruppe. Jeder Trainingsjob hat einen Protokollstream pro Knoten, auf dem er trainiert wurde. Der Name des Protokollstreams beginnt mit dem Wert, der im TrainingJobName-Parameter beim Erstellen des Auftrags angegeben wurde.

Anmerkung

Wenn ein Auftrag fehlschlägt und keine Protokolle in angezeigt werden CloudWatchist es wahrscheinlich, dass vor Beginn des Trainings ein Fehler aufgetreten ist. Ein Grund kann die Angabe des falschen Schulungsabbilds oder des falschen S3-Speicherorts sein.

Der Inhalt von Protokollen unterscheidet sich je nach Algorithmus. Sie können jedoch in der Regel die folgenden Informationen finden:

  • Bestätigung der zu Beginn des Protokolls bereitgestellten Argumente

  • Fehler, die während der Schulung auftraten

  • Messung der Genauigkeit oder numerischen Leistung eines Algorithmus

  • Timings für den Algorithmus und alle wichtigen Stufen innerhalb des Algorithmus

Häufige Fehler

Wenn ein Schulungsauftrag fehlschlägt, werden einige Details zu dem Fehler vom FailureReason-Rückgabewert in der Schulungsauftragsbeschreibung bereitgestellt, wie etwa folgende:

sage = boto3.client('sagemaker') sage.describe_training_job(TrainingJobName=job_name)['FailureReason']

Andere werden nur in der CloudWatch protokolliert. Zu den häufigen Fehlern gehören:

  1. Falsches Angeben eines Hyperparameters oder Angeben eines Hyperparameters, der für den Algorithmus unzulässig ist.

    Von CloudWatch Protokoll

    [10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
  2. Angeben eines ungültigen Werts für einen Hyperparameter.

    FailureReason

    AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\

    FailureReason

    [10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
  3. Falsches protobuf-Dateiformat.

    Von CloudWatch Log

    [10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784