1단계: 데이터 수집 및 집계 - Amazon Forecast에서 시계열 예측 원칙

1단계: 데이터 수집 및 집계

다음 그림은 예측 문제에 대한 멘탈 모델을 보여줍니다. 목표는 가능한 한 많은 관련 정보를 사용하여 미래의 시계열 z_t를 예측하여 가능한 한 정확하게 예측하는 것입니다. 따라서 가장 중요한 첫 번째 단계는 올바른 데이터를 최대한 많이 수집하는 것입니다.

시계열 z_t를 관련 특징 또는 공변량 (x_t) 및 다중 예측과 함께 보여주는 다이어그램

시계열 z_t와 관련 특징 또는 공변량 (x_t) 및 다중 예측값

위 그림에서는 수직선 오른쪽에 여러 예측이 표시됩니다. 이러한 예측은 확률적 예측 분포의 샘플입니다(또는 반대로 확률적 예측을 나타내는 데 사용할 수 있음).

소매 비즈니스에서 기록해야 할 주요 정보는 다음과 같습니다.

  • 거래 판매 데이터 - 예: 재고 관리 단위(SKU), 위치, 타임스탬프 및 판매 수량

  • SKU 상품 세부 정보 데이터 - 상품의 메타데이터. 예: 색상, 부서, 크기 등.

  • 가격 데이터 - 타임스탬프가 있는 각 상품의 가격 시계열.

  • 프로모션 정보 데이터 - 다양한 유형의 프로모션(상품 모음(카테고리) 또는 타임스탬프가 있는 개별 상품)

  • 재고 정보 데이터 - 시간 단위마다 해당 SKU의 재고 또는 구매 가능 여부를 비교한 SKU의 재고 상태 정보

  • 위치 데이터 - 특정 시점의 상품 또는 판매 위치를 location_id 또는 store_id 문자열이나 실제 지리적 위치로 표시. 지리적 위치는 국가 코드와 5자리 우편번호 또는latitude_longitude 좌표일 수 있습니다. 위치는 거래 판매의 '차원'으로 간주됩니다.

Amazon Forecast에서는 예측할 수량의 과거 데이터를 대상 시계열(TTS)이라고 합니다. 소매 비즈니스의 경우 TTS는 거래 판매 데이터입니다. 모든 판매 거래와 정확히 동시에 알려진 기타 과거 데이터를 관련 시계열(RTS)이라고 합니다. 소매 비즈니스의 경우 RTS에는 가격, 프로모션 및 재고 변수가 포함됩니다.

이 문제는 판매가 아닌 예측 수요에 중점을 두고 있지만 비즈니스에서는 판매량만 기록하므로 재고 정보가 중요하다는 점에 유의하세요. SKU가 품절되면 판매 수량이 잠재 수요보다 적으므로 이러한 품절 이벤트가 발생하는 시기를 파악하고 기록하는 것이 중요합니다.

고려해야 할 기타 데이터 세트로는 웹페이지 방문 수, 검색어 세부 정보, 소셜 미디어, 날씨 정보 등이 있습니다. 이 데이터를 모델에서 사용할 수 있으려면 과거 그리고 미래의 데이터를 사용할 수 있어야 하는 경우가 많습니다. 이는 많은 예측 모델 및 백테스트(4단계: 예측 평가 섹션 참조)에서 요구되는 사항입니다.

일부 예측 문제의 경우 원시 데이터의 빈도가 예측 문제의 빈도와 자연스럽게 일치합니다. 분 단위로 예측하려는 경우 분 단위로 샘플링되는 서버 볼륨 요청을 예로 들 수 있습니다.

데이터는 종종 더 정밀한 빈도로 기록되거나 특정 시간 범위 내에서 임의의 타임스탬프로 기록되지만, 예측 문제는 더 세부적으로 기록됩니다. 이는 일반적으로 판매 데이터가 거래 데이터로 기록되는 소매 사례 연구에서 흔히 볼 수 있습니다. 예를 들어 형식은 판매가 발생한 시점을 세밀하게 나타내는 타임스탬프로 구성됩니다. 예측 사용 사례에서는 이러한 낮은 세분 수준이 필요하지 않을 수 있으며 이 데이터를 시간별 또는 일별 매출로 집계하는 것이 더 적절할 수 있습니다. 여기서 집계 수준은 재고 관리 또는 리소스 계획과 같은 다운스트림 문제에 해당합니다.

다음 그림의 왼쪽 그래프는 Amazon Forecast에 CSV(쉼표로 구분된 값) 파일로 입력할 수 있는 원시 고객 판매 데이터의 예를 보여줍니다. 이 예시에서는 판매 데이터가 더 세밀한 일일 시간 그리드로 정의되며, 문제는 더 조밀한 시간 그리드에서 미래의 주간 수요를 예측하는 것입니다. Amazon Forecast는 create_predictor API 호출에서 특정 주의 일별 값을 집계합니다.

결과는 원시 데이터를 고정된 주간 빈도의 올바른 형식의 시계열 컬렉션으로 변환합니다. 오른쪽 그래프는 기본 합계 집계 방법을 사용하여 대상 시계열에 대한 이 집계를 보여줍니다. 다른 집계 방법에는 평균, 최대값, 최소값 또는 단일 지점 선택(예: 첫 번째 지점)이 포함되어 있습니다. 데이터의 비즈니스 사용 사례에 가장 잘 맞는 집계 수준 및 방법을 선택해야 합니다. 이 예에서는 집계된 값이 주간 집계에 맞춰 정렬됩니다. create_predictor API의 FeaturizationConfig 파라미터FeaturizationMethodParameters 키를 사용하여 사용자가 다른 집계 방법을 설정할 수 있습니다.

원시 판매 데이터를 이벤트로 집계하여 동일한 간격의 시계열로 나타낸 다이어그램

원시 판매 데이터를 이벤트로 집계하고(왼쪽) 동일한 간격의 시계열로 나타냄(오른쪽)