반복 학습

반복 훈련을 사용하면 여러 훈련 기술을 순차적으로 연결하여 Amazon Nova 모델을 위한 정교한 훈련 파이프라인을 개발할 수 있습니다. 이 접근 방식을 사용하면 다양한 사용자 지정 방법을 계층화하여 정확하게 맞춤화된 모델을 달성할 수 있습니다.

이 프로세스는 표준 기법(예: SFT, PEFT 또는 DPO) 중 하나를 사용하여 Amazon Nova 모델을 훈련하는 것으로 시작됩니다. 완료되면 지정된 S3 출력 위치에서 manifest.json 파일을 찾을 수 있습니다. 이 파일에는 훈련된 모델이 저장되는 위치를 나타내는 checkpoint_s3_bucket 값이 포함되어 있습니다.

그런 다음이 체크포인트 위치를 후속 훈련 실행에서 model_name_or_path 파라미터로 사용하여 이전 사용자 지정 작업을 효과적으로 구축할 수 있습니다. 이렇게 하면 점진적 개선 체인이 생성되며 각 훈련 단계는 특정 요구 사항에 따라 모델을 추가로 개선합니다.

반복 학습을 사용하면 Amazon Nova 모델을 조정하기 위한 보다 정교한 학습 파이프라인을 개발할 수 있습니다. 학습 모듈을 연결하면 다양한 학습 기법을 계층적으로 적용하여 모델을 필요에 맞게 정확하게 사용자 지정할 수 있습니다.

먼저에 설명된 기법 중 하나를 사용하여 Amazon Nova를 훈련합니다Amazon SageMaker HyperPod의 Amazon Nova 사용자 지정 HyperPod. 학습 과정에서 정의한 출력 S3 위치에서 manifest.json 파일을 찾습니다. 이 파일에는 출력 모델이 저장된 위치를 나타내는 checkpoint_s3_bucket 값이 포함되어 있습니다. 이 출력 위치를 향후 학습 실행에서 model_name_or_path 값으로 사용할 수 있습니다.

예시

다음 예제에서는 Amazon Nova Lite 모델에 대한 지도 미세 조정(SFT) > SFT > 직접 선호도 최적화(DPO) 반복 훈련 실행을 정의하는 워크플로를 단계별로 안내합니다. 먼저 파운데이션 모델의 초기 SFT 훈련을 위한 실행 레시피를 정의해야 합니다.


## Run config
run:
  name: "my-fullrank-run-sft"             # A descriptive name for your training job
  model_type: "amazon.nova-lite-v1:0:300k"  # Model variant specification, do not change
  model_name_or_path: "nova-lite/prod"      # Base model path, do not change
  replicas: 4                               # Number of compute instances for training, allowed values are 4, 8, 16
  data_s3_path: "s3://Path to training data"          # Your training data path
  output_s3_path: "s3://Path to output data location" # Output artifact path

이 훈련 작업은에 정의된 경로에서 다음과 output_s3_path 유사한 manifest.json 파일을 생성합니다.

{"checkpoint_s3_bucket":"s3://<escrow bucket>/<job id>/outputs/checkpoints"}

이 체크포인트 경로는 다음 반복 훈련 단계에서 로 사용할 수 있습니다model_name_or_path. 이렇게 하면 훈련에서 이전 체크포인트를 기본 파운데이션 모델 대신 다음 훈련 방법의 기본 모델로 사용하도록 지시합니다.

예제의 다음 단계에서는 다양한 상호 작용 세트에서 모델을 훈련하는 데 사용할 수 있는 다른 데이터 세트에 대한 SFT 훈련 실행을 정의합니다.


## Run config
run:
  name: "my-fullrank-run-sft-2"             # A descriptive name for your training job
  model_type: "amazon.nova-lite-v1:0:300k"  # Model variant specification, do not change
  model_name_or_path: "s3://customer-escrow-bucket-unique_id/my-fullrank-run-sft-unique id/outputs/checkpoints"      # Model checkpoint after 1st SFT run
  replicas: 4                               # Number of compute instances for training, allowed values are 4, 8, 16
  data_s3_path: "s3://Path to training data #2"       # Customer data path
  output_s3_path: "s3://Path to output data location" # Output artifact path

첫 번째 훈련 세트와 마찬가지로 출력 위치에 비슷한 manifest.json 파일이 출력됩니다.

{"checkpoint_s3_bucket":"s3://<escrow bucket>/<job id>/outputs/checkpoints"}

그런 다음 DPO를 사용하여 마지막 반복 훈련 실행에 대한 최종 입력으로 사용할 수 있습니다.


## Run config
run:
  name: "my-fullrank-run-dpo"             # A descriptive name for your training job
  model_type: "amazon.nova-lite-v1:0:300k"  # Model variant specification, do not change
  model_name_or_path: "s3://customer-escrow-bucket-unique_id/my-fullrank-run-sft-2-unique id/outputs/checkpoints"      # Model checkpoint after 2nd SFT run
  replicas: 4                               # Number of compute instances for training, allowed values are 4, 8, 16
  data_s3_path: "s3://Path to training data #2"       # Your training data path
  output_s3_path: "s3://Path to output data location" # Output artifact path

이 반복 훈련 파이프라인의 모든 단계에서 출력을 추론 또는 평가에 사용할 수 있으며, 이를 통해 모델의 진행 상황을 확인하여 원하는 출력으로 수렴하는지 확인할 수 있습니다.

제한 사항

원하는 결과를 달성하는 데 필요한 반복 횟수만큼 원하는 순서대로 사용 가능한 훈련 방법을 사용하여 반복 훈련을 실행할 수 있습니다. 반복적으로 훈련할 때는 모델과 기법(LoRA PEFT에 비해 전체 순위)이 모두 일관되게 유지되어야 합니다. 예를 들어 LoRA PEFT 훈련 후 전체 순위 미세 조정으로 반복 훈련을 시도하면 훈련 작업에서 오류가 발생합니다. 마찬가지로 Amazon Nova Micro 체크포인트를 기반으로 Amazon Nova Lite 훈련 작업을 정의하려는 경우 오류가 발생합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

평가

Amazon Bedrock 추론