하이퍼파라미터를 사용하여 텍스트 생성 모델의 학습 프로세스를 최적화합니다. - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

하이퍼파라미터를 사용하여 텍스트 생성 모델의 학습 프로세스를 최적화합니다.

다음 하이퍼파라미터의 조합을 조정하여 기본 모델의 학습 프로세스를 최적화할 수 있습니다. 이 파라미터는 모든 모델에서 사용할 수 있습니다.

  • Epoch Count: epochCount 하이퍼파라미터는 모델이 전체 훈련 데이터세트를 통과하는 횟수를 결정합니다. 이는 훈련 기간에 영향을 미치며 적절하게 설정하면 과적합을 방지할 수 있습니다. 에포크 수가 많으면 미세 조정 작업의 전체 런타임이 늘어날 수 있습니다. 미세 조정 작업이 조기에 중단되지 않도록 TextGenerationJobConfig 하려면 MaxAutoMLJobRuntimeInSeconds 범위 내에서 큰 값을 설정하는 것이 좋습니다. CompletionCriteria

  • Batch Size: batchSize 하이퍼파라미터는 각 훈련 반복에 사용되는 데이터 샘플 수를 정의합니다. 수렴 속도와 메모리 사용량에 영향을 줄 수 있습니다. 배치 크기가 크면 OOM (Out of Memory) 오류가 발생할 위험이 커지며, 이는 오토파일럿의 내부 서버 오류로 나타날 수 있습니다. 이러한 오류가 있는지 확인하려면 오토파일럿 작업에서 시작한 교육 작업의 /aws/sagemaker/TrainingJobs 로그 그룹을 확인하십시오. AWS 관리 CloudWatch 콘솔에서 해당 로그인에 액세스할 수 있습니다. [Logs] 를 선택한 다음 /aws/sagemaker/TrainingJobs 로그 그룹을 선택합니다. OOM 오류를 해결하려면 배치 크기를 줄이십시오.

    배치 크기를 1로 시작한 다음 메모리 부족 오류가 발생할 때까지 배치 크기를 점진적으로 늘리는 것이 좋습니다. 참고로 10 에포크는 일반적으로 완료하는 데 최대 72시간이 걸립니다.

  • 학습률: learningRate 하이퍼파라미터는 학습 중에 모델 매개변수가 업데이트되는 단계 크기를 제어합니다. 학습 중에 모델의 파라미터가 얼마나 빨리 또는 느리게 업데이트되는지를 결정합니다. 학습률이 높으면 매개변수가 큰 스텝 크기만큼 업데이트되므로 수렴 속도가 빨라질 수 있지만 최적화 프로세스가 최적 솔루션을 오버슈트하여 불안정해질 수도 있습니다. 학습률이 낮으면 매개변수가 작은 스텝 크기만큼 업데이트되므로 수렴이 더 안정적일 수 있지만 학습 속도는 느려질 수 있습니다.

  • 학습률 예열 단계: learningRateWarmupSteps 하이퍼파라미터는 학습률이 목표값 또는 최대값에 도달하기 전에 점진적으로 증가하는 훈련 단계 수를 지정합니다. 이렇게 하면 모델을 더 효과적으로 수렴할 수 있고 초기에는 높은 학습률로 발생할 수 있는 발산이나 느린 수렴 등의 문제를 피할 수 있습니다.

오토파일럿에서 미세 조정 실험을 위해 하이퍼파라미터를 조정하는 방법과 가능한 값을 알아보려면 을 참조하십시오. 하이퍼파라미터를 설정하여 모델의 학습 프로세스를 최적화하는 방법