Protokolle für integrierte Algorithmen - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Protokolle für integrierte Algorithmen

Amazon- SageMaker Algorithmen erstellen Amazon- CloudWatch Protokolle, die detaillierte Informationen zum Trainingsprozess liefern. Um die Protokolle anzuzeigen, wählen Sie in der -AWSManagementkonsole , CloudWatchwählen Sie Protokolle und dann die Gruppe /aws/sagemaker/TrainingJobs log aus. Jeder Schulungsauftrag hat einen Protokollstream pro Knoten, in dem er geschult wurde. Der Protokoll-Streamname beginnt mit dem Wert, der im TrainingJobName-Parameter beim Erstellen des Auftrags angegeben wurde.

Anmerkung

Wenn ein Auftrag fehlschlägt und Protokolle nicht in angezeigt werden CloudWatch, ist wahrscheinlich ein Fehler aufgetreten, bevor das Training gestartet wurde. Ein Grund kann die Angabe des falschen Schulungsabbilds oder des falschen S3-Speicherorts sein.

Der Inhalt von Protokollen unterscheidet sich je nach Algorithmus. Sie können jedoch in der Regel die folgenden Informationen finden:

  • Bestätigung der zu Beginn des Protokolls bereitgestellten Argumente

  • Fehler, die während der Schulung auftraten

  • Messung der Genauigkeit eines Algorithmus oder numerischen Leistung

  • Zeitabläufe für den Algorithmus und alle wichtigen Phasen innerhalb des Algorithmus

Häufige Fehler

Wenn ein Schulungsauftrag fehlschlägt, werden einige Details zu dem Fehler vom FailureReason-Rückgabewert in der Schulungsauftragsbeschreibung bereitgestellt, wie etwa folgende:

sage = boto3.client('sagemaker') sage.describe_training_job(TrainingJobName=job_name)['FailureReason']

Andere werden nur in den CloudWatch Protokollen gemeldet. Zu den häufigen Fehlern gehören:

  1. Falsches Angeben eines Hyperparameters oder Angeben eines Hyperparameters, der für den Algorithmus ungültig ist.

    Aus dem - CloudWatch Protokoll

    [10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
  2. Angeben eines ungültigen Werts für einen Hyperparameter.

    FailureReason

    AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\

    FailureReason

    [10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
  3. Falsches protobuf-Dateiformat.

    Aus dem CloudWatch Protokoll

    [10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784