더 이상 Amazon Machine Learning 서비스를 업데이트하거나 새 사용자를 받지 않습니다. 이 설명서는 기존 사용자에 제공되지만 더 이상 업데이트되지 않습니다. 자세한 내용은 Amazon Machine Learning이란? 단원을 참조하세요.
데이터를 학습 및 평가 데이터로 분리
ML의 근본적인 목표는 모델을 학습시키는 데 사용된 데이터 인스턴스를 그 이상으로 일반화하는 것입니다. 우리는 모델 평가를 통해 해당 모델이 학습되지 않은 데이터에 대한 패턴 일반화의 품질을 평가하려고 합니다. 하지만 미래 인스턴스는 알 수 없는 대상 값을 가지며 미래 인스턴스에 대한 예측의 정확성을 지금 확인할 수 없으므로, 이미 알고 있는 데이터 중 일부를 향후 데이터의 프록시로 사용해야 합니다. 학습에 사용된 것과 동일한 데이터를 사용하여 모델을 평가하는 것은 유용하지 않은데, 이는 일반화하는 것과 대조적으로 학습 데이터를 "기억"할 수 있는 모델에 대한 보상을 하기 때문입니다.
일반적인 전략은 사용 가능한 분류된 데이터를 모두 가져와서 학습 및 평가 하위 집합으로 분리하는 것입니다. 보통 학습에 70~80%, 평가에 20~30%의 비율이 사용됩니다. ML 시스템은 학습 데이터를 사용하여 모델을 학습시켜서 패턴을 확인하고, 평가 데이터를 사용하여 학습된 모델의 예측 품질을 평가합니다. ML 시스템은 다양한 지표를 사용하여 평가 데이터 세트의 예측을 참 값(실측 정보라고 함)과 비교하는 방식으로 예측 성능을 평가합니다. 보통 평가 하위 집합에 대해 "최적"의 모델을 사용하여 대상 대답을 모르는 미래 인스턴스에 대한 예측을 수행합니다.
Amazon ML은 Amazon ML 콘솔을 통해 학습용으로 전송된 데이터를 학습에 70%, 평가에 30%로 분리합니다. 기본적으로 Amazon ML은 입력 데이터의 처음 70%를 소스 데이터에 표시된 순서대로 학습 데이터 소스에 사용하고 나머지 30%는 평가 데이터 소스에 사용합니다. 또한 Amazon ML에서는 처음 70%를 사용하고 이 무작위 하위 집합의 보완을 평가에 사용하는 대신 소스 데이터의 70%를 무작위로 선택하여 학습할 수 있습니다. Amazon ML API를 사용하여 사용자 지정 분할 비율을 지정하고 Amazon ML 외부로 분할된 학습 및 평가 데이터를 제공할 수 있습니다. 또한 Amazon ML은 데이터를 분할하기 위한 전략을 제공합니다. 분할 전략에 대한 자세한 내용은 데이터 분할 단원을 참조하세요.