組み込みアルゴリズムのログ - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

組み込みアルゴリズムのログ

Amazon SageMaker アルゴリズムは Amazon CloudWatch ログを生成して、トレーニングプロセスに関する詳細情報を提供します。ログを表示するには、AWS マネジメントコンソールで [CloudWatch]、[ログ] の順に選択し、[ロググループ] として /aws/sagemaker/TrainingJobs を選択します。各トレーニングジョブには、トレーニングされたノードごとに 1 つのログストリームがあります。ログストリームの名前は、ジョブの作成時に TrainingJobName パラメータで指定された値で始まります。

注記

ジョブが失敗してログが CloudWatch に表示されない場合、トレーニングの開始前にエラーが発生した可能性があります。理由は、間違ったトレーニングイメージや S3 の場所の指定が含まれます。

ログの内容は、アルゴリズムによって異なります。ただし、一般的には次の情報が表示されます。

  • ログの先頭で指定された引数の確認

  • トレーニング中に発生したエラー

  • アルゴリズムの精度や数値パフォーマンスの測定

  • アルゴリズムのタイミングとアルゴリズム内の主要なステージ

一般的なエラー

トレーニングジョブが失敗した場合、一部のエラーの詳細はトレーニングジョブ説明の FailureReason 戻り値によって以下のように提供されます。

sage = boto3.client('sagemaker') sage.describe_training_job(TrainingJobName=job_name)['FailureReason']

それ以外は、CloudWatch ログでのみ報告されます。一般的なエラーは以下のとおりです。

  1. ハイパーパラメータを指定しない、またはアルゴリズムに対して無効なハイパーパラメータの指定。

    CloudWatch Log から

    [10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
  2. ハイパーパラメータへの無効な値の指定。

    FailureReason

    AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\

    FailureReason

    [10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
  3. 不正確な protobuf ファイル形式。

    CloudWatch Log から

    [10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784