관련 시계열 데이터 세트 사용

관련 시계열 데이터 세트에는 대상 시계열 데이터 세트에 없지만 예측기의 정확성을 개선할 수 있는 시계열 데이터가 추가됩니다.

예를 들어 수요 예측 도메인의 경우 대상 시계열 데이터 세트에 timestamp 및 item_id 차원이 포함될 수 있지만 보완적 데이터 세트인 관련 시계열에도 보충 특징인 item price, promotion 및 weather가 포함됩니다.

관련 시계열 데이터 세트에는 최대 10개의 예측 차원(대상 시계열 데이터 세트와 동일)과 최대 13개의 관련 시계열 특징이 포함될 수 있습니다.

Python 노트북

관련 시계열 데이터셋 사용에 대한 step-by-step 가이드는 관련 시계열 통합을 참조하세요.

참고

예측 기간 내의 값을 포함하는 관련 시계열은 미래 예측 시계열로 취급됩니다.

관련 시계열의 형식은 다음 두 가지입니다.

과거 시계열: 예측 기간 내에 데이터 포인트가 없는 시계열.
미래 예측 시계열: 예측 기간 내에 데이터 포인트가 있는 시계열.

과거 관련 시계열에는 예측 기간까지의 데이터 포인트가 포함되며, 예측 기간 내의 데이터 포인트는 포함되지 않습니다. 미래 예측 관련 시계열에는 예측 기간까지의 데이터 포인트와 예측 기간 내의 데이터 포인트가 포함됩니다.

관련 시계열 데이터 세트는 다음과 같은 제약이 따릅니다.

대상 시계열의 타겟 값을 추가할 수 없습니다.
item_id 및 timestamp 차원과 하나 이상의 관련 기능(예: price)을 포함해야 합니다.
관련 시계열 기능 데이터의 데이터 형식은 int 또는 float여야 합니다.
전체 대상 시계열을 사용하려면 대상 시계열 데이터 세트의 모든 항목도 관련 시계열 데이터 세트에 포함되어야 합니다. 관련 시계열에 대상 시계열의 하위 집합만 포함된 경우 모델 생성과 예측 생성은 해당 특정 항목 하위 집합으로 제한됩니다.

예를 들어 대상 시계열에 1,000개의 항목이 있고 관련 시계열 데이터 세트에 100개 항목만 포함된 경우, 모델 및 예측은 이 100개 항목만 기반으로 합니다.
관련 시계열 데이터 세트에서 데이터가 기록되는 빈도는 예측을 생성할 간격(예측 세부 수준)과 일치해야 합니다.

예를 들어 주 단위의 세부 수준으로 예측을 생성하려는 경우 대상 시계열의 데이터 기록 빈도가 일 단위라고 해도 관련 시계열의 데이터 기록 빈도 역시 주 단위가 되어야 합니다.
관련 시계열 데이터 세트의 각 상품 데이터는 대상 시계열 데이터 세트에서 해당하는 item_id의 시작 timestamp와 동일하게, 혹은 그 이전에 시작되어야 합니다.

예를 들어 socks의 대상 시계열 데이터가 2019-01-01에, 그리고 shoes의 대상 시계열 데이터가 2019-02-01에 시작된다고 가정한다면 socks의 관련 시계열 데이터는 2019-01-01 또는 그 이전에, 그리고 shoes의 데이터는 2019-02-01 또는 그 이전에 시작되어야 합니다.
미래 예측 관련 시계열 데이터 세트의 경우, 모든 항목의 마지막 타임스탬프는 사용자가 지정하는 예측 구간(예측 기간이라고 함)의 마지막 타임스탬프여야 합니다.

아래 관련 시계열 파일 예에서 양말과 신발의 timestamp 데이터는 2019-07-01(마지막에 기록된 타임스탬프) + 예측 구간 또는 그 이후에 종료되어야 합니다. 대상 시계열의 데이터 빈도가 일 단위이고, 예측 구간이 10일이라고 가정할 경우 미래 예측 관련 시계열 파일에서 일별 데이터 포인트를 2019-07-11까지 제공해야 합니다.
과거 관련 시계열 데이터 세트의 경우 모든 항목의 마지막 타임스탬프가 대상 시계열의 마지막 타임스탬프와 일치해야 합니다.

아래 관련 시계열 파일 예에서 양말과 신발의 timestamp 데이터는 2019-07-01(마지막으로 기록된 타임스탬프)에 끝나야 합니다.
관련 시계열 데이터 세트에서 제공되는 Forecast 차원 수는 대상 시계열 데이터 세트에서 지정되는 차원의 하위 집합보다 작거나 같아야 합니다.
관련 시계열에 누락된 값이 있으면 안 됩니다. 관련 시계열 데이터 세트에서 누락된 값에 대한 자세한 내용은 누락 값 처리를 참조하세요.

다음 표는 올바르게 구성된 관련 시계열 데이터 세트 파일을 나타낸 것입니다. 이번 예에서는 다음과 같이 가정합니다.

마지막 데이터 포인트는 2019-07-01에 대상 시계열 데이터 세트에 기록되었습니다.
예측 구간은 10일입니다.
예측 세부 수준은 일 단위(D)입니다.

"…" 행은 이전 행과 이후 행 사이에 존재하는 모든 데이터 포인트를 가리킵니다.

`timestamp`	`item_id`	`store`	`price`
2019-01-01	양말	NYC	10
2019-01-02	양말	NYC	10
2019-01-03	양말	NYC	15
`...`
2019-06-01	양말	NYC	10
`...`
2019-07-01	양말	NYC	10
`...`
2019-07-11	양말	NYC	20
2019-01-05	양말	SFO	45
`...`
2019-06-05	양말	SFO	10
`...`
2019-07-01	양말	SFO	10
`...`
2019-07-11	양말	SFO	30
2019-02-01	신발	ORD	50
`...`
2019-07-01	신발	ORD	75
`...`
2019-07-11	신발	ORD	60

다음 표는 주 단위로 예측을 생성할 때 대상 시계열과 관련 시계열의 데이터 기록 빈도가 서로 양립 가능한 것을 나타냅니다. 이때 Forecast는 관련 시계열 데이터 세트의 데이터를 집계할 수 없기 때문에 선택한 예측 세분 수준과 동일한 관련 시계열 데이터 빈도만 허용합니다.

대상 입력 데이터 빈도	관련 시계열 빈도	예측 세부 수준	Forecast에서 지원?
일별	주별	주별	예
주별	주별	주별	예
N/A	주별	주별	예
일별	일별	주별	아니요

참고

기존 예측자를 로 업그레이드하려면 을 참조하십시오. AutoPredictor 로 업그레이드 AutoPredictor

레거시 예측기를 사용하는 경우 CNN-QR, DeepAR+, Prophet 알고리즘을 사용하여 예측기를 훈련할 때 관련 시계열 데이터 세트를 사용할 수 있습니다. NPTS, ARIMA, ETS는 관련 시계열 데이터를 허용하지 않습니다.

다음 표는 각 Amazon Forecast 알고리즘이 허용하는 관련 시계열 유형을 보여줍니다.

	CNN-QR	DeepAR+	Prophet	NPTS	ARIMA	ETS
과거 관련 시계열
미래 예측 관련 시계열

AutoML을 사용하는 경우 과거 관련 시계열 데이터와 미래 예측 관련 시계열 데이터를 모두 제공할 수 있으며, Forecast는 해당하는 경우에만 해당 시계열을 사용합니다.

미래 예측 관련 시계열 데이터를 제공하는 경우 Forecast는 CNN-QR, DeepAR+, Prophet에서 관련 데이터를 사용하고 NPTS, ARIMA, ETS에서는 관련 데이터를 사용하지 않습니다. 과거 관련 시계열 데이터를 제공하는 경우 Forecast는 CNN-QR에서 관련 데이터를 사용하고, DeepAr+, Prophet, NPTS, ARIMA, ETS에서는 관련 데이터를 사용하지 않습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

데이터 세트 가져오기

항목 메타데이터

관련 시계열 데이터 세트 사용

Python 노트북

주제

과거 및 미래 예측 관련 시계열

참고

관련 시계열 데이터 세트 검증

예: 미래 예측 관련 시계열 파일

예: 예측 세부 수준

레거시 예측기 및 관련 시계열

참고