관련 시계열 데이터 세트 사용 - Amazon Forecast

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

관련 시계열 데이터 세트 사용

관련 시계열 데이터 세트에는 대상 시계열 데이터 세트에 없지만 예측기의 정확성을 개선할 수 있는 시계열 데이터가 추가됩니다.

예를 들어, 수요 예측 도메인의 경우 대상 시계열 데이터 세트에 timestampitem_id 차원이 포함될 수 있으나, 보완적인 관련 시계열 데이터 세트에도 보충 특징인 item price, promotionweather가 포함됩니다.

관련 시계열 데이터 세트에는 최대 10개의 예측 차원(대상 시계열 데이터 세트와 동일)과 최대 13개의 관련 시계열 특징이 포함될 수 있습니다.

Python 노트북

관련 시계열 데이터셋 사용에 대한 step-by-step 가이드는 관련 시계열 통합을 참조하세요.

참고

예측 기간 내의 값을 포함하는 관련 시계열은 미래 예측 시계열로 취급됩니다.

관련 시계열의 형식은 다음 2가지입니다.

  • 과거 시계열: 예측 기간 내에 데이터 포인트가 없는 시계열.

  • 미래 예측 시계열: 예측 기간 내에 데이터 포인트가 있는 시계열.

과거 관련 시계열에는 예측 기간까지의 데이터 포인트가 포함되며, 예측 기간 내의 데이터 포인트는 포함되지 않습니다. 미래 예측 관련 시계열에는 예측 기간까지의 데이터 포인트와 예측 기간 내의 데이터 포인트가 포함됩니다.

관련 시계열 데이터 세트는 다음과 같은 제약이 따릅니다.

  • 대상 시계열의 타겟 값을 추가할 수 없습니다.

  • item_idtimestamp 차원과 하나 이상의 관련 기능(예: price)을 포함해야 합니다.

  • 관련 시계열 기능 데이터의 데이터 형식은 int 또는 float여야 합니다.

  • 전체 대상 시계열을 사용하려면 대상 시계열 데이터 세트의 모든 항목도 관련 시계열 데이터 세트에 포함되어야 합니다. 대상 시계열에 있는 항목의 하위 집합만 관련 시계열에 포함된 경우 모델 생성과 예측 생성은 해당 특정 항목 하위 집합으로 제한됩니다.

    예를 들어, 대상 시계열에 1,000개의 항목이 있고 관련 시계열 데이터 세트에 100개 항목만 포함되었다면 모델 및 예측은 이 100개 항목만 기반으로 합니다.

  • 관련 시계열 데이터 세트에서 데이터가 기록되는 빈도는 예측을 생성할 간격(예측 세부 수준)과 일치해야 합니다.

    예를 들어 주 단위의 세부 수준으로 예측을 생성하려는 경우 대상 시계열의 데이터 기록 빈도가 일 단위라고 해도 관련 시계열의 데이터 기록 빈도 역시 주 단위가 되어야 합니다.

  • 관련 시계열 데이터 세트의 각 상품 데이터는 대상 시계열 데이터 세트에서 해당하는 item_id의 시작 timestamp와 동일하게, 혹은 그 이전에 시작되어야 합니다.

    예를 들어 socks의 대상 시계열 데이터가 2019-01-01에, 그리고 shoes의 대상 시계열 데이터가 2019-02-01에 시작된다고 가정한다면 socks의 관련 시계열 데이터는 2019-01-01 또는 그 이전에, 그리고 shoes의 데이터는 2019-02-01 또는 그 이전에 시작되어야 합니다.

  • 미래 예측 관련 시계열 데이터 세트의 경우, 모든 항목의 마지막 타임스탬프는 사용자가 지정하는 예측 구간(예측 기간이라고 함)의 마지막 타임스탬프여야 합니다.

    아래 관련 시계열 파일 예에서 양말과 신발의 timestamp 데이터는 2019-07-01(마지막에 기록된 타임스탬프) + 예측 구간 또는 그 이후에 종료되어야 합니다. 대상 시계열의 데이터 빈도가 일 단위이고 예측 기간이 10일이라고 가정할 경우, 2019-07-11까지 미래 예측 관련 시계열 파일에 일별 데이터 포인트를 제공해야 합니다.

  • 과거 관련 시계열 데이터 세트의 경우 모든 항목의 마지막 타임스탬프가 대상 시계열의 마지막 타임스탬프와 일치해야 합니다.

    아래 관련 시계열 파일 예에서 양말과 신발의 timestamp 데이터는 2019-07-01(마지막으로 기록된 타임스탬프)에 끝나야 합니다.

  • 관련 시계열 데이터 세트에서 제공되는 Forecast 차원 수는 대상 시계열 데이터 세트에 지정된 차원의 하위 집합이거나 이와 동일해야 합니다.

  • 관련 시계열에 누락된 값이 있으면 안 됩니다. 관련 시계열 데이터 세트에서 누락된 값에 대한 자세한 내용은 누락 값 처리를 참조하세요.

다음 표는 올바르게 구성된 관련 시계열 데이터 세트 파일을 나타낸 것입니다. 이번 예에서는 다음과 같이 가정합니다.

  • 마지막 데이터 포인트는 2019-07-01에 대상 시계열 데이터 세트에 기록되었습니다.

  • 예측 구간은 10일입니다.

  • 예측 세부 수준은 일 단위(D)입니다.

"" 행은 이전 행과 이후 행 사이에 존재하는 모든 데이터 포인트를 가리킵니다.

timestamp item_id store price
2019-01-01 양말 NYC 10
2019-01-02 양말 NYC 10
2019-01-03 양말 NYC 15
...
2019-06-01 양말 NYC 10
...
2019-07-01 양말 NYC 10
...
2019-07-11 양말 NYC 20
2019-01-05 양말 SFO 45
...
2019-06-05 양말 SFO 10
...
2019-07-01 양말 SFO 10
...
2019-07-11 양말 SFO 30
2019-02-01 신발 ORD 50
...
2019-07-01 신발 ORD 75
...
2019-07-11 신발 ORD 60

다음 표는 주 단위로 예측을 생성할 때 대상 시계열과 관련 시계열의 데이터 기록 빈도가 서로 양립 가능한 것을 나타냅니다. 이때 Forecast는 관련 시계열 데이터 세트의 데이터를 집계할 수 없기 때문에 선택한 예측 세분 수준과 동일한 관련 시계열 데이터 빈도만 허용합니다.

대상 입력 데이터 빈도 관련 시계열 빈도 예측 세부 수준 Forecast의 지원 여부
일별 주별 주별
주별 주별 주별
N/A 주별 주별
일별 일별 주별 아니요
참고

기존 예측자를 로 업그레이드하려면 을 참조하십시오. AutoPredictor 로 업그레이드 AutoPredictor

레거시 예측기를 사용하는 경우 CNN-QR, DeepAR+, Prophet 알고리즘을 사용하여 예측기를 훈련할 때 관련 시계열 데이터 세트를 사용할 수 있습니다. NPTS, ARIMA, ETS는 관련 시계열 데이터를 허용하지 않습니다.

다음 표는 각 Amazon Forecast 알고리즘이 허용하는 관련 시계열 유형을 보여줍니다.

CNN-QR DeepAR+ Prophet NPTS ARIMA ETS

과거 관련 시계열

미래 예측 관련 시계열

AutoML을 사용하는 경우 과거 관련 시계열 데이터와 미래 예측 관련 시계열 데이터를 모두 제공할 수 있으며, Forecast는 해당하는 경우에만 해당 시계열을 사용합니다.

미래 예측 관련 시계열 데이터를 제공하는 경우 Forecast는 CNN-QR, DeepAR+, Prophet에서 관련 데이터를 사용하고 NPTS, ARIMA, ETS에서는 관련 데이터를 사용하지 않습니다. 과거 관련 시계열 데이터를 제공하는 경우 Forecast는 CNN-QR에서 관련 데이터를 사용하고, DeepAr+, Prophet, NPTS, ARIMA, ETS에서는 관련 데이터를 사용하지 않습니다.