특성 처리 - Amazon Machine Learning

더 이상 Amazon Machine Learning 서비스를 업데이트하거나 새 사용자를 받지 않습니다. 이 설명서는 기존 사용자에 제공되지만 더 이상 업데이트되지 않습니다. 자세한 내용은 Amazon Machine Learning이란? 단원을 참조하세요.

특성 처리

데이터 요약 및 시각화를 통해 데이터를 파악한 후에는 변수를 더욱 의미 있는 것으로 변환하고 싶어 할 수 있습니다. 이를 특성 처리라고 합니다. 예를 들어 이벤트가 발생한 날짜와 시간을 캡처하는 변수가 있다고 가정해 보겠습니다. 이 날짜와 시간은 다시 발생하지 않으므로 대상을 예측하는 데 유용하지 않습니다. 하지만 이 변수를 해당 날짜의 시간, 요일 및 월을 나타내는 특성으로 변환하는 경우, 이러한 변수는 이벤트가 특정 시간, 요일 또는 월에 발생하는 경향이 있는지 학습하기에 유용할 수 있습니다. 학습하기 위해 좀 더 일반화가 가능한 데이터 요소를 형성하는 이러한 특성 처리는 예측 모델을 크게 개선할 수 있습니다.

일반적인 특성 처리의 다른 예:

  • 누락되었거나 잘못된 데이터를 더 의미 있는 값으로 대체합니다(예: 제품 유형 변수에 누락된 값이 실제로 책이라는 것을 사용자가 알고 있는 경우 제품 유형의 누락된 값을 모두 책 값으로 대체할 수 있음). 누락된 값을 대체하기 위해 사용되는 일반적인 전략은 누락된 값을 평균 값 또는 중간 값으로 대체하는 것입니다. 누락된 값을 대체하기 위한 전략을 선택하기 전에 데이터를 파악하는 것이 중요합니다.

  • 한 변수와 다른 변수의 데카르트 곱을 형성합니다. 예를 들어 인구 밀도(도시, 교외, 농촌)와 주(워싱턴, 오레곤, 캘리포니아)와 같은 두 가지 변수가 있는 경우, 이 두 변수의 데카르트 곱에 대한 결과로 형성된 특성에 유용한 정보가 있을 수 있습니다(urban_Washington, suburban_Washington, rural_Washington, urban_Oregon, suburban_Oregon, rural_Oregon, urban_California, suburban_California, rural_California).

  • 카테고리에 숫자 변수를 비닝(binning)하는 것과 같은 비선형 변환. 많은 경우에 숫자 특성과 대상 간의 관계는 선형적이지 않습니다(특성 값은 대상에 따라 점차 증가하거나 감소하지 않음). 이 경우 다양한 범위의 숫자 특성을 나타내는 카테고리 특성으로 숫자 특성을 비닝하는 것이 유용할 수 있습니다. 각 카테고리 특성(빈)은 대상과의 선형 관계를 갖도록 모델링될 수 있습니다. 예를 들어 연속적인 숫자 특징 age가 책을 구입할 가능성과 선형적으로 관련이 없다는 것을 알고 있다고 가정해 보겠습니다. 사용자는 대상과의 관계를 더욱 정확하게 캡처할 수 있는 카테고리 특성으로 age를 비닝할 수 있습니다. 숫자 변수에 대한 최적의 빈 수는 변수의 특징과 대상과의 관계에 따라 달라지며, 이는 실험을 통해 가장 효과적으로 결정됩니다. Amazon ML은 제안된 레시피의 데이터 통계를 기반으로 숫자 특성에 대한 최적의 빈 수를 제안합니다. 추천 레시피에 대한 세부 정보는 개발자 안내서를 참조하세요.

  • 도메인별 특성(예: 별도의 변수로 길이, 너비 및 높이를 가지며, 이 세 가지 변수의 곱으로 새 볼륨 특성을 만들 수 있음).

  • 변수별 특성. 텍스트 특성, 웹 페이지의 구조를 캡처하는 특성 또는 문장 구조와 같은 일부 변수 유형은 구조와 컨텍스트를 추출하는 데 도움이 되는 일반적인 처리 방법을 가집니다. 예를 들어 "the fox jumped over the fence"라는 텍스트의 n-gram을 형성하는 것은 unigram(the, fox, jumped, over, fence) 또는 bigram(the fox, fox jumped, jumped over, over the, the fence)으로 표현될 수 있습니다.

보다 관련성이 높은 특성을 포함시키면 예측 능력을 개선하는 데 도움이 됩니다. 분명하게도 "신호" 또는 예측 영향이 있는 특성을 항상 미리 알 수는 없습니다. 따라서 대상 레이블과 잠재적으로 관련될 수 있는 모든 특성을 포함시키고 모델 학습 알고리즘이 가장 강한 상관 관계가 있는 특성을 선택하게 하는 것이 좋습니다. Amazon ML에서 특성 처리는 모델을 생성할 때 레시피에서 지정할 수 있습니다. 사용 가능한 특성 프로세서 목록은 개발자 안내서를 참조하세요.