2단계: 데이터 준비
원시 데이터를 사용할 수 있게 되면 데이터 누락과 같은 복잡한 문제를 해결하고 의도한 해석을 가장 잘 포착할 수 있는 예측 모델에 사용할 데이터를 준비해야 합니다.
누락된 데이터 처리 방법
실제 예측 문제에서 흔히 발생하는 문제는 원시 데이터에 누락된 값이 있는 경우입니다. 시계열에서 누락된 값은 지정된 빈도의 모든 시점에서 해당하는 실제 값을 추가 처리에 사용할 수 없음을 의미합니다. 값이 누락된 것으로 표시되는 이유로 여러 가지가 있을 수 있습니다.
트랜잭션이 없거나 측정 오류가 발생할 수 있기 때문에 누락된 값이 발생할 수 있습니다(예: 특정 데이터를 모니터링한 서비스가 제대로 작동하지 않았거나 측정이 올바르게 수행되지 않은 경우). 소매 사례 연구에서 후자의 주요 예로 수요 예측의 품절 상황을 들 수 있습니다. 즉, 수요가 해당 날짜의 판매량과 같지 않다는 뜻입니다.
서비스가 한도에 도달하면 클라우드 컴퓨팅 시나리오에서도 비슷한 결과가 발생할 수 있습니다(예: 특정 AWS 리전의 Amazon EC2
누락된 값을 특성 처리 구성 요소로 삽입하여 패딩이 있는 시계열 길이가 같도록 할 수도 있습니다. 누락된 값이 상당히 많을 경우 모델의 정확도에 큰 영향을 미칠 수 있습니다.
예 1
채우기는 데이터 세트에서 누락된 항목에 표준화된 값을 추가하는 프로세스입니다. 다음 그림에서는 세 항목으로 구성된 데이터 세트의 항목 2에 대해 Amazon Forecast의 누락된 값을 처리하는 다양한 전략(전면, 중간, 뒤로 및 앞으로 채우기) 을 보여 줍니다.
Amazon Forecast는 대상 시계열 및 관련 시계열 모두에 대한 채우기를 지원합니다. 글로벌 시작 날짜는 데이터 세트에 있는 모든 항목의 시작 날짜 중 가장 빠른 시작 날짜로 정의됩니다. 아래 예에서는 항목 1에 대한 글로벌 시작 날짜가 표시됩니다. 마찬가지로 글로벌 종료 날짜는 모든 항목에 대한 시계열의 가장 늦은 종료 날짜로 정의되며 항목 2에 해당합니다.
전면 채우기는 특정 시계열의 시작부터 글로벌 시작일까지의 모든 값을 채웁니다. 이 문서를 게시할 때에는 Amazon Forecast에서 전면 채우기를 설정하지 않으므로 모든 시계열이 서로 다른 시점에서 시작될 수 있습니다. 중간 채우기는 시계열의 중간(예: 항목의 시작 날짜와 종료 날짜 사이)에 채워진 값을 나타내며, 뒤로 채우기는 해당 시계열의 마지막 날짜부터 전체 종료 날짜까지 채워진 값을 나타냅니다.
대상 시계열의 경우 중간 및 뒤로 채우기 방법의 기본 채우기 로직은 0입니다. 앞으로 채우기(관련 시계열에만 적용)는 항목의 글로벌 종료 일자와 고객이 지정한 예측 기간 사이에 누락된 값을 모두 채웁니다. Prophet 및 DeepAR+와 함께 관련 시계열 데이터 세트를 사용하려면 미래 값이 필요하며 CNN-QR의 경우 선택 사항입니다.

Amazon Forecast에 누락된 가치 처리 전략
위 그림에서 글로벌 시작 날짜는 모든 항목의 시작 날짜 중 가장 빠른 시작 날짜를 나타내며, 글로벌 종료 날짜는 모든 항목의 종료 날짜 중 가장 늦은 종료 날짜를 나타냅니다. 예상 구간(Forecast Horizon)은 예측이 목표 값에 대한 예측을 제공하는 기간입니다.
이는 소매 연구에서 흔히 볼 수 있는 시나리오로, 가용 품목에 대한 거래 데이터에서 판매량이 0인 경우를 나타냅니다. 이러한 값은 실제 0으로 처리되며 지표 평가 구성 요소에 사용됩니다. Amazon Forecast를 사용하면 사용자가 실제로 누락된 값을 식별하고 알고리즘이 처리할 수 있도록 NaN(숫자가 아닌 값)으로 인코딩할 수 있습니다. 이 백서에서는 다음으로 이 두 가지 경우가 왜 다른지, 그리고 각각이 언제 유용한지 살펴봅니다.
소매 사례 연구에서 소매업체가 판매 가능한 품목을 0개 판매했다는 정보는 해당 품목이 존재하지 않는 기간(예: 출시 전 또는 지원 중단 후) 또는 해당 품목이 있는 기간(예: 일부 품절 또는 해당 기간 동안 기록된 판매 데이터가 없는 경우)에 판매가 불가능한 품목을 0개 판매했다는 정보와 다릅니다. 전자의 경우에는 기본 0 채우기를 적용할 수 있습니다. 후자의 경우 해당하는 목표 값이 일반적으로 0이지만 누락된 것으로 표시된 값에는 추가 정보가 전달됩니다. 가장 좋은 방법은 누락된 데이터가 있다는 정보를 보존하고 이 정보를 버리지 않는 것입니다. 정보 보관이 중요한 이유에 대한 설명은 다음 예를 참조하세요.
Amazon Forecast는 값, 평균, 중앙값, 최소값 및 최대값의 추가 채우기 로직을 지원합니다. 관련 시계열(예: 가격 또는 프로모션)의 경우 올바른 누락값 로직이 속성 유형 및 사용 사례에 따라 달라지므로 중간, 뒤로 또는 앞으로 채우기 방법에 대한 기본값이 지정되지 않습니다. 관련 시계열에 지원되는 채우기 로직에는 0, 값, 평균, 중앙값, 최소값 및 최대값이 포함됩니다.
누락 값 채우기를 수행하려면 CreatePredictor
작업을 호출할 때 구현할 채우기 유형을 지정합니다. 채우기 로직은 FeaturizationMethod
객체에 지정됩니다. 예를 들어, 대상 시계열에서 판매가 불가능한 제품의 판매량이 0이 아닌 값을 인코딩하려면 채우기 유형을 NaN으로 설정하여 값을 실제로 누락된 값으로 표시하세요. 0으로 채워진 값과 달리 NaN으로 인코딩된 값은 실제로 누락된 것으로 간주되며 지표 평가 구성 요소에 사용되지 않습니다.

0 채우기와 NaN을 이용한 채우기 결과가 동일 품목에 대한 예측에 미치는 영향
위 그림의 왼쪽 그래프에서는 검은색 세로 선의 왼쪽에 있는 값이 0으로 채워져 있어 예측이 과소 편향되어 있습니다(수직 검은색 선의 오른쪽). 오른쪽 그래프에서 이러한 값은 NaN으로 표시되어 적절한 예측으로 이어집니다.
예 2
위 그림은 ARIMA 또는 ETS와 같은 선형 상태 공간 모델에서 누락된 값을 올바르게 처리하는 것의 중요성을 보여줍니다. 부분적으로 품절된 품목에 대한 수요 예측을 표시합니다. 학습 영역은 왼쪽 그래프에서 녹색으로, 오른쪽 패널의 예측 범위는 빨간색으로, 실제 목표는 검은색으로 표시됩니다. 중앙값, p10 및 p90 예측치는 각각 빨간색 선과 음영 영역에 표시됩니다. 아래쪽에는 빨간색으로 표시된 품절 상품(데이터의 80%)이 표시됩니다. 왼쪽 그림에서는 품절 영역이 무시되고 0으로 채워집니다.
그 결과 예측해야 할 0이 많다고 가정하고 예측 모델이 생성되어 너무 낮은 예측값이 나오게 됩니다. 오른쪽 그림에서는 품절 영역이 실제 누락된 관측치로 간주되고 품절 영역에서는 수요가 불확실해집니다. 품절 품목에 대한 누락값이 NaN으로 적절하게 표시되어 있으면 이 그림의 예측 범위에 과소 편향이 나타나지 않습니다. Amazon Forecast는 이러한 데이터 격차를 좁히므로 모든 입력 데이터를 명시적으로 수정하지 않고도 누락된 데이터를 쉽고 올바르게 처리할 수 있습니다.
기능화 및 관련 시계열 개념
Amazon Forecast에서는 사용자가 관련 데이터를 입력하여 지원되는 특정 예측 모델의 정확도를 높일 수 있습니다. 이 데이터에는 관련 시계열 또는 정적 항목 메타데이터의 두 가지 유형이 있습니다.
참고
메타데이터 및 관련 데이터를 기계 학습에서는 기능이라고 하고 통계에서는공변량이라고 합니다.
관련 시계열은 목표값과 어느 정도 상관관계가 있는 시계열을 말하며, 직관적인 용어로 설명을 제공하므로 목표값을 예측하는 데 통계적 강점을 어느 정도 제공할 수 있습니다(예시는 Amazon Forecast: 대규모 시계열 예측
Amazon Forecast에서는 두 가지 유형의 관련 시계열, 즉 과거 시계열 및 미래 예측 시계열을 추가할 수 있습니다. 과거 관련 시계열에는 예측 기간까지의 데이터 포인트가 포함되며 향후 예측 기간 내에는 데이터 포인트가 포함되지 않습니다. 미래 예측 관련 시계열에는 예측 기간까지의 데이터 포인트와 예측 기간 내의 데이터 포인트가 포함됩니다.

Amazon Forecast에서 관련 시계열을 사용하는 것과 관련된 다양한 접근 방식
예 3
다음 그림은 관련 시계열을 사용하여 인기 도서의 향후 수요를 예측하는 방법의 예를 보여줍니다. 파란색 선은 목표 시계열의 수요를 나타냅니다. 가격은 초록색 선으로 표시됩니다. 세로선은 예측 시작 날짜를 나타내며 두 분위의 예측은 수직선 오른쪽에 표시됩니다.
이 예에서는 예측 세부 수준에서 목표 시계열에 맞춰 정렬되며 예측 시작 일자부터 예측 대상 기간(예측 종료 일자)만큼 증가된 범위 내에서 향후의 모든(또는 대부분) 시간을 알 수 있는 미래 예측 관련 시계열을 사용합니다.
다음 그림은 가격 하락과 제품 판매 증가 사이의 상관 관계를 확인할 수 있기 때문에 가격이 사용하기에 적합한 기능임을 보여줍니다. 항목 SKU, 타임스탬프 및 관련 시계열 값(이 경우 가격)이 포함된 별도의 CSV 파일을 통해 관련 시계열을 Amazon Forecast에 제공할 수 있습니다.
Amazon Forecast는 대상 시계열에 대한 평균 및 합계와 같은 집계 방법을 지원하지만 관련 시계열에 대해서는 지원하지 않습니다. 예를 들어 일일 가격을 주간 가격으로 합산하는 것은 거의 의미가 없으며 일일 프로모션의 경우에도 마찬가지입니다.
Amazon Forecast는 내장된 기능 데이터 세트를 포함하여 날씨 및휴일 정보를 모델에 자동으로 통합할 수 있습니다(SupplementaryFeature
참조). 날씨 정보 및 휴일은 소매 수요에 큰 영향을 미칠 수 있습니다.

특정 품목의 판매량(파란색으로 표시, 빨간색 세로선 왼쪽)
범주별 변수라고도 하는 항목 메타데이터는 Amazon Forecast에 입력할 수 있는 기타 유용한 기능입니다(예시는 Amazon Forecast: 대규모 시계열 예측