기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
선형 학습자 작동 방식
선형 학습자 알고리즘의 구현에는 사전 처리, 훈련 및 검증의 세 단계가 포함됩니다.
1단계: 사전 처리
정규화 또는 특징 확장은 특정 손실 함수의 중요한 사전 처리 단계이며 데이터 세트에서 학습되는 모델이 단일 특징의 가중치에 따라 관리되지 않게 합니다. Amazon SageMaker AI Linear Learner 알고리즘에는이 사전 처리 단계를 지원하는 정규화 옵션이 있습니다. 정규화를 사용 중인 경우 알고리즘은 먼저 데이터의 작은 샘플을 검토하여 각 특징 및 레이블의 평균 값과 표준 편차를 학습합니다. 전체 데이터 세트의 각 특징은 0의 평균 값을 갖도록 이동하며 단위 표준 편차를 갖도록 크기가 조정됩니다.
참고
최상의 결과를 얻으려면 훈련 전에 데이터가 섞여 있는지 확인하세요. 섞여 있지 않은 데이터로 훈련하면 실패할 수 있습니다.
Linear Learner 알고리즘이 normalize_data
및 normalize_label
하이퍼파라미터를 각각 사용하여 특징 데이터 및 레이블을 정규화하는지 여부를 구성할 수 있습니다. 정규화는 특징 및 회귀 레이블에 대해 기본적으로 활성화됩니다. 바이너리 분류에서는 특징만 정규화할 수 있으며 이것이 기본 동작입니다.
2단계: 훈련
선형 학습자 알고리즘을 사용하면 확률적 경사 하강()의 분산 구현으로 훈련할 수 있습니다SGD. 최적화 알고리즘을 선택하여 최적화 프로세스를 제어할 수 있습니다. 예를 들어 Adam, AdaGrad, 확률 경사 하강 또는 기타 최적화 알고리즘을 사용하도록 선택할 수 있습니다. 또한 모멘텀, 학습률 및 학습률 일정 등과 같은 하이퍼파라미터를 지정할 수도 있습니다. 어떤 알고리즘 또는 하이퍼파라미터 값을 사용할지 잘 모르는 경우 대부분 데이터 세트에 작동하는 기본값을 선택합니다.
훈련 중 각 목표가 조금씩 다른 여러 모델을 동시에 최적화합니다. 예를 들어 L1 또는 L2 정규화를 다르게 한 다음 각기 다른 옵티마이저 설정을 시도합니다.
3단계: 검증 및 임곗값 설정
여러 모델을 병렬로 훈련할 때, 훈련이 완료되면 검증 세트에 대해 모델을 평가하여 가장 적합한 모델을 선택합니다. 회귀의 경우 가장 적합한 모델은 검증 세트에서 가장 큰 손실을 얻는 모델입니다. 분류의 경우 검증 세트의 샘플은 분류 임계값을 교정하는 데 사용됩니다. 가장 적합한 모델은 검증 세트에서 가장 높은 바이너리 분류 선택 기준을 충족하는 모델입니다. 이러한 기준의 예에는 F1 측정, 정확도 및 교차 엔트로피 손실이 있습니다.
참고
알고리즘에 검증 세트가 제공되지 않으면 가장 적합한 모델을 평가 및 선택할 수 없습니다. 병렬 훈련 및 모델 선택을 활용하려면 알고리즘에 검증 세트를 제공하세요.