트레이닝 스크립트를 수정하세요 TensorFlow

모델 출력 텐서 수집을 시작하고 훈련 문제를 디버깅하려면 학습 스크립트를 다음과 같이 수정하세요 TensorFlow .

내에서 학습 작업을 위한 후크를 만드세요. SageMaker


import smdebug.tensorflow as smd

hook=smd.get_hook(hook_type="keras", create_if_not_exists=True)

이렇게 하면 SageMaker 교육 작업을 시작할 때 훅이 생깁니다. 또는 추정기 중 하나를 2단계: Python을 사용하여 SageMaker 교육 작업 시작 및 디버깅 SDK 사용하여 훈련 작업을 시작하면 Rules 메서드에서 선택한 훈련 인스턴스에 JSON 구성 파일이 SageMaker 추가됩니다. DebuggerHookConfig TensorBoardConfig smd.get_hook 참고로, 예측기에 구성 API를 포함하지 않으면 후크가 찾을 수 있는 구성 파일이 없어지고 함수가 None를 반환한다는 점에 유의하세요.

(선택 사항) 외부 교육 작업을 위한 후크 만들기 SageMaker

SageMaker Notebook 인스턴스, Amazon EC2 인스턴스 또는 자체 로컬 디바이스에서 직접 로컬 모드에서 교육 작업을 실행하는 경우 smd.Hook 클래스를 사용하여 후크를 생성하십시오. 하지만 이 접근 방식은 텐서 컬렉션만 저장할 수 있으며 시각화에 TensorBoard 사용할 수 있습니다. SageMaker 디버거에 내장된 규칙은 로컬 모드에서 작동하지 않습니다. 이 경우에도 smd.get_hook 메서드에서 None을 반환합니다.

수동 후크를 만들려면 로직과 함께 다음 코드 스니펫을 사용하여 후크가 None을 반환하는지 확인하고 smd.Hook 클래스를 사용하여 수동 후크를 생성하세요.


import smdebug.tensorflow as smd

hook=smd.get_hook(hook_type="keras", create_if_not_exists=True) 

if hook is None:
    hook=smd.KerasHook(
        out_dir='/path/to/your/local/output/',
        export_tensorboard=True
    )

후크 생성 코드를 추가한 후 TensorFlow Keras에 대한 다음 항목으로 넘어가세요.

참고

SageMaker 디버거는 현재 TensorFlow Keras만 지원합니다.

TensorFlow Keras 교육 스크립트에 후크를 등록하세요.

다음 절차는 후크와 해당 메서드를 사용하여 모델 및 옵티마이저에서 출력 스칼라와 텐서를 컬렉션하는 방법을 안내합니다.

Keras 모델과 옵티마이저를 후크의 클래스 메서드로 래핑하세요.

이 hook.register_model() 메서드는 모델을 가져와 각 레이어를 반복하면서 2단계: Python을 사용하여 SageMaker 교육 작업 시작 및 디버깅 SDK에서 구성을 통해 제공할 정규 표현식과 일치하는 텐서를 찾습니다. 이 후크 메서드를 통해 컬렉션 가능한 텐서는 가중치, 편향, 활성화입니다.
```
model=tf.keras.Model(...)
hook.register_model(model)
```

옵티마이저를 hook.wrap_optimizer() 메서드로 래핑하세요.


optimizer=tf.keras.optimizers.Adam(...)
optimizer=hook.wrap_optimizer(optimizer)

에서 Eager 모드로 모델을 컴파일하십시오. TensorFlow

모델에서 각 레이어의 입력 및 출력 텐서와 같은 텐서를 컬렉션하려면 먼저 Eager 모드에서 훈련을 실행해야 합니다. 그렇지 않으면 SageMaker 디버거가 텐서를 수집할 수 없습니다. 하지만 모델 가중치, 편향, 손실과 같은 다른 텐서는 Eager 모드에서 명시적으로 실행하지 않고도 컬렉션할 수 있습니다.
```
model.compile(
    loss="categorical_crossentropy", 
    optimizer=optimizer, 
    metrics=["accuracy"],
    # Required for collecting tensors of each layer
    run_eagerly=True
)
```
후크를 tf.keras.Model.fit() 메서드에 등록합니다.

등록한 후크에서 텐서를 컬렉션하려면 Keras model.fit() 클래스 메서드에 callbacks=[hook]를 추가하세요. 그러면 sagemaker-debugger 후크가 Keras 콜백으로 전달됩니다.
```
model.fit(
    X_train, Y_train,
    batch_size=batch_size,
    epochs=epoch,
    validation_data=(X_valid, Y_valid),
    shuffle=True, 
    callbacks=[hook]
)
```
TensorFlow 2.x는 해당 값에 대한 액세스를 제공하지 않는 기호 그래디언트 변수만 제공합니다. 그라데이션를 컬렉션하려면 hook.wrap_tape() 메서드로 tf.GradientTape을 래핑하세요. 그라데이션를 컬렉션하려면 다음과 같이 훈련 단계를 직접 작성해야 합니다.
```
def training_step(model, dataset):
    with hook.wrap_tape(tf.GradientTape()) as tape:
        pred=model(data)
        loss_value=loss_fn(labels, pred)
    grads=tape.gradient(loss_value, model.trainable_variables)
    optimizer.apply_gradients(zip(grads, model.trainable_variables))
```
테이프를 감싸면 sagemaker-debugger 후크가 그라데이션, 파라미터, 손실과 같은 출력 텐서를 식별할 수 있습니다. 테이프를 래핑하면 테이프 객체의 함수 (예:,) 에 대한 hook.wrap_tape() 메서드를 사용하여 SageMaker Debugger 작성기를 설정하고 입력 gradient() (훈련 가능한 변수 및 손실) 및 출력 (기울기) 으로 제공되는 텐서를 저장할 수 있습니다. push_tape() pop_tape() gradient() gradient()

참고
사용자 지정 훈련 루프를 사용하여 컬렉션하려면 반드시 Eager 모드를 사용해야 합니다. 그렇지 않으면 SageMaker 디버거가 텐서를 수집할 수 없습니다.

sagemaker-debugger 후크 API가 후크를 생성하고 텐서를 저장하기 위해 제공하는 작업의 전체 목록은 sagemaker-debugger Python SDK 설명서의 후크 메서드를 참조하세요.

훈련 스크립트 조정을 완료한 후 2단계: Python을 사용하여 SageMaker 교육 작업 시작 및 디버깅 SDK 섹션으로 넘어갑니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

PyTorch

2단계: Python을 사용하여 SageMaker 교육 작업 시작 및 디버깅 SDK