모델 적합성: 과소적합과 과적합 비교 - Amazon Machine Learning

더 이상 Amazon Machine Learning 서비스를 업데이트하거나 새 사용자를 받지 않습니다. 이 설명서는 기존 사용자에 제공되지만 더 이상 업데이트되지 않습니다. 자세한 내용은 Amazon Machine Learning이란? 단원을 참조하세요.

모델 적합성: 과소적합과 과적합 비교

잘못된 모델 정확성에 대한 근본 원인을 이해하려면 모델 적합성을 이해하는 것이 중요합니다. 이러한 이해를 통해 올바른 수정 단계를 수행할 수 있습니다. 학습 데이터 및 평가 데이터의 예측 오차를 확인하여 예측 모델에 대한 학습 데이터의 과소적합 또는 과적합 여부를 결정할 수 있습니다.

모델이 학습 데이터에 대해 좋은 성능을 나타내지 않을 때, 모델은 학습 데이터에 과소적합한 것입니다. 이는 모델이 입력 예제(종종 X라고 함)와 대상 값(종종 Y라고 함) 간의 관계를 캡처할 수 없기 때문입니다. 모델이 학습 데이터에 대해 좋은 성능을 나타내지만 평가 데이터에 대해서는 좋은 성능을 나타내지 않을 때, 모델은 학습 데이터에 과적합한 것입니다. 모델이 확인한 데이터를 암기하고 있으며, 미확인 예제는 일반화할 수 없기 때문입니다.

학습 데이터에 대한 성능이 좋지 않은 이유는 모델이 너무 단순해서 대상을 잘 설명할 수 없기 때문입니다(입력 특성의 표현이 충분하지 않음). 모델 유연성을 개선하여 성능을 향상시킬 수 있습니다. 모델 유연성을 개선하려면 다음을 시도합니다.

  • 새로운 도메인별 특성 및 더 많은 특성 데카르트 곱을 추가하고 사용되는 특성 처리 유형을 변경합니다(예: n-gram 크기 증가).

  • 사용된 정규화 정도를 줄입니다.

모델이 학습 데이터에 과적합한 경우 모델 유연성을 줄이는 조치를 취하는 것이 좋습니다. 모델 유연성을 줄이려면 다음을 시도합니다.

  • 특성 선택: 특성 조합을 더 적게 사용하고 n-gram 크기를 줄이며 숫자 속성 빈 수를 줄이는 것을 고려합니다.

  • 사용된 정규화 정도를 높입니다.

학습 알고리즘에 학습 데이터가 충분하지 않기 때문에 학습 및 테스트 데이터의 정확성이 떨어질 수 있습니다. 다음 작업을 수행하여 성능을 향상시킬 수 있습니다.

  • 학습 데이터 예제 수를 높입니다.

  • 기존 학습 데이터에 대한 전달 횟수를 높입니다.