기본 제공 알고리즘에 대한 로그 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기본 제공 알고리즘에 대한 로그

아마존 SageMaker 알고리즘이 아마존 생산 CloudWatch 로그는 훈련 프로세스에 대한 세부 정보를 추가로 제공합니다. 로그를 보려면AWS관리 콘솔, 선택CloudWatch, 선택로그를 탭한 후 /aws/sagemaker/TrainingJobs log group. 각 교육 작업에는 교육된 노드당 하나의 로그 스트림이 있습니다. 로그 스트림의 이름은 작업 생성 시 TrainingJobName 파라미터에 지정된 값으로 시작합니다.

참고

작업이 실패하고 로그가 다음 위치에 나타나지 않는 경우 CloudWatch에서 교육 시작 전에 오류가 발생했을 수 있습니다. 이유 중에는 잘못된 교육 이미지 또는 S3 위치 지정이 있습니다.

로그의 콘텐츠는 알고리즘에 따라 다릅니다. 하지만 일반적으로 다음 정보를 확인할 수 있습니다.

  • 로그 시작 시 제공된 인수의 확인

  • 교육 도중 발생한 오류

  • 알고리즘의 정확도 또는 수치 성능의 측정

  • 알고리즘에 대한 시점 및 알고리즘의 모든 주요 단계

일반적인 오류

교육 작업이 실패한 경우 교육 작업 설명의 FailureReason 반환 값에 실패에 대한 세부 정보가 제공됩니다.

sage = boto3.client('sagemaker') sage.describe_training_job(TrainingJobName=job_name)['FailureReason']

나머지는 다음에서만 보고됩니다. CloudWatch 로그. 일반적인 오류는 다음과 같습니다.

  1. 하이퍼파라미터 미지정 또는 알고리즘에 대해 유효하지 않은 하이퍼파라미터 지정.

    에서 CloudWatch 로그

    [10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
  2. 하이퍼파라미터에 대한 유효하지 않은 값 지정.

    FailureReason

    AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\

    FailureReason

    [10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
  3. 정확하지 않은 protobuf 파일 형식.

    에서 CloudWatch 로그

    [10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784