모델 적합성: 과소적합과 과적합 비교

잘못된 모델 정확성에 대한 근본 원인을 이해하려면 모델 적합성을 이해하는 것이 중요합니다. 이러한 이해를 통해 올바른 수정 단계를 수행할 수 있습니다. 학습 데이터 및 평가 데이터의 예측 오차를 확인하여 예측 모델에 대한 학습 데이터의 과소적합 또는 과적합 여부를 결정할 수 있습니다.

Three graphs showing underfitting, balanced, and overfitting models with data points and trend lines.

모델이 학습 데이터에 대해 좋은 성능을 나타내지 않을 때, 모델은 학습 데이터에 과소적합한 것입니다. 이는 모델이 입력 예제(종종 X라고 함)와 대상 값(종종 Y라고 함) 간의 관계를 캡처할 수 없기 때문입니다. 모델이 학습 데이터에 대해 좋은 성능을 나타내지만 평가 데이터에 대해서는 좋은 성능을 나타내지 않을 때, 모델은 학습 데이터에 과적합한 것입니다. 모델이 확인한 데이터를 암기하고 있으며, 미확인 예제는 일반화할 수 없기 때문입니다.

학습 데이터에 대한 성능이 좋지 않은 이유는 모델이 너무 단순해서 대상을 잘 설명할 수 없기 때문입니다(입력 특성의 표현이 충분하지 않음). 모델 유연성을 개선하여 성능을 향상시킬 수 있습니다. 모델 유연성을 개선하려면 다음을 시도합니다.

새로운 도메인별 특성 및 더 많은 특성 데카르트 곱을 추가하고 사용되는 특성 처리 유형을 변경합니다(예: n-gram 크기 증가).
사용된 정규화 정도를 줄입니다.

모델이 학습 데이터에 과적합한 경우 모델 유연성을 줄이는 조치를 취하는 것이 좋습니다. 모델 유연성을 줄이려면 다음을 시도합니다.

특성 선택: 특성 조합을 더 적게 사용하고 n-gram 크기를 줄이며 숫자 속성 빈 수를 줄이는 것을 고려합니다.
사용된 정규화 정도를 높입니다.

학습 알고리즘에 학습 데이터가 충분하지 않기 때문에 학습 및 테스트 데이터의 정확성이 떨어질 수 있습니다. 다음 작업을 수행하여 성능을 향상시킬 수 있습니다.

학습 데이터 예제 수를 높입니다.
기존 학습 데이터에 대한 전달 횟수를 높입니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

모델 정확성 개선

모델을 사용하여 예측 수행