선형 학습자 모델 튜닝 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

선형 학습자 모델 튜닝

하이퍼파라미터 튜닝이라고도 하는 자동 모델 튜닝은 데이터 세트에 대한 광범위한 하이퍼파라미터를 테스트하는 여러 작업을 실행하여 최적의 모델 버전을 찾습니다. 튜닝 가능한 하이퍼파라미터, 각 하이퍼파라미터에 대한 값 범위 및 목표 지표를 선택합니다. 알고리즘에서 계산하는 지표 중에서 목표 지표를 선택합니다. 자동 모델 튜닝은 선택한 하이퍼파라미터를 검색하여 목표 지표를 최적화하는 모델을 만드는 값 조합을 찾습니다.

또한 Linear Learner 알고리즘은 여기서 설명하는 자동 모델 튜닝 기능과 별도로 하이퍼파라미터 튜닝을 위한 내부 메커니즘을 가지고 있습니다. 기본적으로 Linear Learner 알고리즘은 여러 모델을 병렬로 훈련해 하이퍼파라미터를 튜닝합니다. 자동 모델 튜닝을 사용하는 경우 Linear Learner 내부 튜닝 메커니즘은 자동으로 꺼집니다. 병렬 모델 수 num_models는 1로 설정됩니다. 이 알고리즘에서는 num_models에 대해 설정한 모든 값이 무시됩니다.

모델 튜닝에 대한 추가 정보는 를 사용한 자동 모델 튜닝 SageMaker 단원을 참조하십시오.

선형 학습자 알고리즘으로 계산되는 지표

선형 학습자 알고리즘은 다음 표에 나오는 지표를 보고합니다. 이들 지표는 훈련 중 계산됩니다. 이러한 지표 중 하나를 목표 지표로 선택합니다. 과적합을 피하기 위해 훈련 지표 대신 검증 지표를 기준으로 모델을 튜닝하는 것이 좋습니다.

지표 이름 설명 최적화 방향
test:absolute_loss

테스트 데이터 세트에 대한 최종 모델의 절대 손실. 이 목표 지표는 회귀에만 유효합니다.

최소화

test:binary_classification_accuracy

테스트 데이터 세트에 대한 최종 모델의 정확도. 이 목표 지표는 바이너리 분류에만 유효합니다.

최대화

test:binary_f_beta

테스트 데이터 세트에 대한 최종 모델의 F-베타 점수. 기본적으로, 이 점수는 정밀도와 재현율의 조화 평균인 F1 점수입니다. 이 목표 지표는 바이너리 분류에만 유효합니다.

최대화

test:dcg

테스트 데이터 세트에서 최종 모델의 할인된 누적 이득입니다. 이 목표 지표는 멀티클래스 분류에만 유효합니다.

최대화

test:macro_f_beta

테스트 데이터 세트에 대한 최종 모델의 F-베타 점수. 이 목표 지표는 멀티클래스 분류에만 유효합니다.

최대화

test:macro_precision

테스트 데이터 세트에 대한 최종 모델의 정밀도 점수. 이 목표 지표는 멀티클래스 분류에만 유효합니다.

최대화

test:macro_recall

테스트 데이터 세트에 대한 최종 모델의 재현율 점수. 이 목표 지표는 멀티클래스 분류에만 유효합니다.

최대화

test:mse

테스트 데이터 세트에 대한 최종 모델의 평균 제곱 오차. 이 목표 지표는 회귀에만 유효합니다.

최소화

test:multiclass_accuracy

테스트 데이터 세트에 대한 최종 모델의 정확도. 이 목표 지표는 멀티클래스 분류에만 유효합니다.

최대화

test:multiclass_top_k_accuracy

테스트 데이터 세트에서 예측된 상위 k개 레이블 간의 정확도입니다. 이 측정치를 목표로 선택하는 경우 accuracy_top_k 하이퍼파라미터를 사용하여 k 값을 설정하는 것이 좋습니다. 이 목표 지표는 멀티클래스 분류에만 유효합니다.

최대화

test:objective_loss

모델 훈련 후 테스트 데이터 세트에 대한 목표 손실 함수의 평균값. 기본적으로 이러한 손실은 이진 분류의 경우 로지스틱 손실이고, 회귀의 경우 제곱 손실입니다. 이러한 손실을 다른 유형으로 설정하려면 loss 하이퍼파라미터를 사용하십시오.

최소화

test:precision

테스트 데이터 세트에 대한 최종 모델의 정밀도. 이 지표를 목표 지표로 선택한 경우에는 binary_classifier_model_selection 하이퍼파라미터를 precision_at_target_recall로 설정하고 target_recall 하이퍼파라미터에 대한 값을 설정하여 목표 재현율을 설정하는 것이 좋습니다. 이 목표 지표는 바이너리 분류에만 유효합니다.

최대화

test:recall

테스트 데이터 세트에 대한 최종 모델의 재현율. 이 지표를 목표 지표로 선택한 경우에는 binary_classifier_model_selection 하이퍼파라미터를 recall_at_target_precision으로 설정하고 target_precision 하이퍼파라미터에 대한 값을 설정하여 목표 정밀도를 설정하는 것이 좋습니다. 이 목표 지표는 바이너리 분류에만 유효합니다.

최대화

test:roc_auc_score

테스트 데이터 세트에서 최종 모델의 수신 작동 특성 곡선(ROC 곡선) 아래 영역. 이 목표 지표는 바이너리 분류에만 유효합니다.

최대화

validation:absolute_loss

검증 데이터 세트에 대한 최종 모델의 절대 손실. 이 목표 지표는 회귀에만 유효합니다.

최소화

validation:binary_classification_accuracy

검증 데이터 세트에 대한 최종 모델의 정확도. 이 목표 지표는 바이너리 분류에만 유효합니다.

최대화

validation:binary_f_beta

검증 데이터 세트에 대한 최종 모델의 F-베타 점수. 기본적으로, F-베타 점수는 validation:precisionvalidation:recall 지표의 조화 평균인 F1 점수입니다. 이 목표 지표는 바이너리 분류에만 유효합니다.

최대화

validation:dcg

검증 데이터 세트에서 최종 모델의 할인된 누적 이득입니다. 이 목표 지표는 멀티클래스 분류에만 유효합니다.

최대화

validation:macro_f_beta

검증 데이터 세트에 대한 최종 모델의 F-베타 점수. 이 목표 지표는 멀티클래스 분류에만 유효합니다.

최대화

validation:macro_precision

검증 데이터 세트에 대한 최종 모델의 정밀도 점수. 이 목표 지표는 멀티클래스 분류에만 유효합니다.

최대화

validation:macro_recall

검증 데이터 세트에 대한 최종 모델의 재현율 점수. 이 목표 지표는 멀티클래스 분류에만 유효합니다.

최대화

validation:mse

검증 데이터 세트에 대한 최종 모델의 평균 제곱 오차. 이 목표 지표는 회귀에만 유효합니다.

최소화

validation:multiclass_accuracy

검증 데이터 세트에 대한 최종 모델의 정확도. 이 목표 지표는 멀티클래스 분류에만 유효합니다.

최대화

validation:multiclass_top_k_accuracy

검증 데이터 세트에서 예측된 상위 k개 레이블 간의 정확도입니다. 이 측정치를 목표로 선택하는 경우 accuracy_top_k 하이퍼파라미터를 사용하여 k 값을 설정하는 것이 좋습니다. 이 목표 지표는 멀티클래스 분류에만 유효합니다.

최대화

validation:objective_loss

매 epoch마다 검증 데이터 세트에 대한 목표 손실 함수의 평균값. 기본적으로 이러한 손실은 이진 분류의 경우 로지스틱 손실이고, 회귀의 경우 제곱 손실입니다. 이러한 손실을 다른 유형으로 설정하려면 loss 하이퍼파라미터를 사용하십시오.

최소화

validation:precision

검증 데이터 세트에 대한 최종 모델의 정확도. 이 지표를 목표 지표로 선택한 경우에는 binary_classifier_model_selection 하이퍼파라미터를 precision_at_target_recall로 설정하고 target_recall 하이퍼파라미터에 대한 값을 설정하여 목표 재현율을 설정하는 것이 좋습니다. 이 목표 지표는 바이너리 분류에만 유효합니다.

최대화

validation:recall

검증 데이터 세트에 대한 최종 모델의 재현율. 이 지표를 목표 지표로 선택한 경우에는 binary_classifier_model_selection 하이퍼파라미터를 recall_at_target_precision으로 설정하고 target_precision 하이퍼파라미터에 대한 값을 설정하여 목표 정밀도를 설정하는 것이 좋습니다. 이 목표 지표는 바이너리 분류에만 유효합니다.

최대화

validation:rmse

검증 데이터 세트에 대한 최종 모델의 평균 제곱근 오차. 이 목표 지표는 회귀에만 유효합니다.

최소화

validation:roc_auc_score

검증 데이터 세트에서 최종 모델의 수신 작동 특성 곡선(ROC 곡선) 아래 영역. 이 목표 지표는 바이너리 분류에만 유효합니다.

최대화

선형 학습자 하이퍼파라미터 튜닝

다음 하이퍼파라미터를 사용하여 Linear Learner 모델을 튜닝할 수 있습니다.

파라미터 이름 파라미터 유형 권장 범위
wd

ContinuousParameterRanges

MinValue: 1e-7, MaxValue: 1

l1

ContinuousParameterRanges

MinValue: 1e-7, MaxValue: 1

learning_rate

ContinuousParameterRanges

MinValue: 1e-5, MaxValue: 1

mini_batch_size

IntegerParameterRanges

MinValue: 100, MaxValue: 5000

use_bias

CategoricalParameterRanges

[True, False]

positive_example_weight_mult

ContinuousParameterRanges

MinValue: 1e-5, MaxValue: 1e5