시계열 데이터 세트 형식 및 누락된 값 채우기 방법 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

시계열 데이터 세트 형식 및 누락된 값 채우기 방법

시계열 데이터는 일정한 시간 간격으로 기록된 관측치 또는 측정값의 모음을 말합니다. 이 유형의 데이터에서는 각 관측치가 특정 타임스탬프 또는 시간 기간과 연관되어 연대순으로 정렬된 일련의 데이터 포인트가 생성됩니다.

시계열 데이터 세트에 포함하는 특정 열은 분석 목표와 사용 가능한 데이터에 따라 달라집니다. 시계열 데이터는 최소한 다음과 같은 3열 테이블로 구성됩니다.

  • 한 열에는 특정 시점의 값을 참조하기 위해 개별 항목에 할당된 고유 식별자가 포함됩니다.

  • 또 다른 열은 특정 시점의 특정 항목 값을 기록하기 위한 값 또는 대상을 나타냅니다. point-in-time 이러한 대상 값을 기준으로 모델을 훈련시킨 후, 이 대상 열에는 모델이 정의된 범위 내에서 지정된 빈도로 예측하는 값이 포함됩니다.

  • 또한 값을 측정한 날짜와 시간을 기록하는 타임스탬프 열도 포함됩니다.

  • 추가 열에는 예측 성과에 영향을 줄 수 있는 다른 요인이 포함될 수 있습니다. 예를 들어 판매 또는 매출을 대상으로 하는 소매용 시계열 데이터 세트에는 판매량, 제품 ID, 매장 위치, 고객 수, 재고 수준은 물론이고, 날씨 데이터나 인구 통계 정보와 같은 공분산 지표에 대한 정보를 제공하는 기능이 포함될 수 있습니다.

참고

국가 공휴일 정보의 특성 추출 데이터 세트를 시계열에 추가할 수 있습니다. 시계열 모델에 휴일을 포함하면 휴일로 인해 생성되는 주기적 패턴을 캡처할 수 있습니다. 이렇게 하면 데이터의 기본 계절성을 예측에 더 잘 반영할 수 있습니다. 국가별로 사용 가능한 달력에 대한 자세한 내용은 국경일 달력 섹션을 참조하세요.

시계열 예측을 위한 데이터 세트 형식

Autopilot은 숫자, 카테고리, 텍스트 및 날짜시간 데이터 형식을 지원합니다. 대상 열의 데이터 유형은 숫자여야 합니다.

오토파일럿은 CSV (기본) 파일 또는 Parquet 파일 형식의 시계열 데이터를 지원합니다.

  • CSV(comma-separated-values) 는 사람이 읽을 수 있는 일반 텍스트로 데이터를 저장하는 행 기반 파일 형식입니다. 이 형식은 다양한 애플리케이션에서 지원되므로 데이터 교환에 널리 사용됩니다.

  • Parquet는 행 기반 파일 형식보다 데이터를 더 효율적으로 저장하고 처리하는 열 기반 파일 형식입니다. 따라서 빅 데이터 문제에 더 나은 옵션입니다.

Autopilot의 예측을 위한 시계열 데이터 세트의 리소스 제한에 대한 자세한 내용은 Amazon SageMaker 오토파일럿 시계열 예측 리소스 제한 섹션을 참조하세요.

누락된 값 처리

시계열 예측 데이터의 일반적인 문제는 누락된 값이 있다는 것입니다. 측정 실패, 서식 문제, 인적 오류 또는 기록할 정보 부족 등 여러 가지 이유로 데이터에 누락된 값이 포함될 수 있습니다. 예를 들어 소매점 제품 수요를 예측할 때 품목이 매진되었거나 공급되지 않는 경우 해당 품목이 품절된 동안에는 기록할 판매 데이터가 없습니다. 누락된 값은 충분히 많을 경우 모델의 정확도에 큰 영향을 미칠 수 있습니다.

Autopilot은 대상 열 및 기타 추가 열에 대해 고유한 접근 방식을 사용하여 누락된 값을 처리할 수 있는 다양한 채우기 방법을 제공합니다. 채우기는 데이터 세트에서 누락된 항목에 표준화된 값을 추가하는 프로세스입니다.

시계열 데이터 세트에서 누락된 값을 채우는 방법을 설정하는 방법을 알아보려면 입력 데이터 세트에서 누락된 값을 처리하는 방법 섹션을 참조하세요.

Autopilot은 다음과 같은 채우기 방법을 지원합니다.

  • 전면 채우기: 모든 항목 중에서 가장 먼저 기록된 데이터 포인트와 각 항목의 시작점 사이에서 누락된 값을 채웁니다(각 항목은 다른 시간에 시작할 수 있음). 이를 통해 각 항목의 데이터가 완전하도록 보장하고 가장 먼저 기록된 데이터 포인트부터 해당 시작 지점까지 확장됩니다.

  • 중간 채우기: 데이터 세트에 있는 항목의 시작 날짜와 종료 날짜 사이에 누락된 값을 채웁니다.

  • 후면 채우기: 모든 항목 중에서 가장 늦게 기록된 데이터 포인트와 각 항목의 마지막 데이터 포인트 사이에서 누락된 값을 채웁니다(각 항목은 다른 시간에 중지할 수 있음).

  • 앞으로 채우기: 모든 항목 중에서 마지막으로 기록된 데이터 포인트와 예측 기간 종료 시점 사이의 누락된 값을 모두 채웁니다.

다음 이미지는 다양한 채우기 방법을 시각적으로 나타냅니다.

Amazon SageMaker 오토파일럿의 시계열 예측을 위한 다양한 채우기 방법.

채우기 로직을 선택하세요

채우기 로직을 선택할 때 모델에서 로직을 해석하는 방법을 고려해야 합니다. 예를 들어, 소매 시나리오에서 재고 품목의 판매량이 0을 기록하는 것은 품절 품목의 판매량이 0을 기록하는 것과 다릅니다. 후자가 해당 품목에 대한 고객의 관심 부족을 의미하지는 않습니다. 이 때문에 시계열의 대상 열에서 0 채우기는 예측에서 예측기를 과소 편향시킬 수 있는 반면, NaN 채우기는 실제 발생한 재고 품목 판매량 0을 무시하고 예측기를 과다 편향시킬 수 있습니다.

채우기 로직

데이터 세트의 대상 열과 다른 숫자 열을 채울 수 있습니다. 대상 열의 채우기 지침 및 제한 사항은 나머지 숫자 열과 다릅니다.

채우기 지침

열 유형 기본적으로 채우기? 지원되는 채우기 방법 기본 채우기 로직 허용되는 채우기 로직
대상 열 중간 및 뒤로 채우기 0
  • zero - 0 채우기

  • value – 정수 또는 부동 소수점 숫자

  • nan – 숫자가 아님

  • mean – 데이터 계열의 평균값

  • median – 데이터 계열의 중간값

  • min – 데이터 계열의 최소값

  • max – 데이터 계열의 최대값

기타 숫자 열 아니요 중간, 뒤로 및 앞으로 채우기 기본값 없음
  • zero – 0 채우기

  • value – 정수 또는 부동 소수점 값

  • mean – 데이터 계열의 평균값

  • median – 데이터 계열의 중간값

  • min – 데이터 계열의 최소값

  • max – 데이터 계열의 최대값

참고

대상 및 기타 숫자 열 모두에 대해, 누락된 값 이전의 가장 최근 데이터 항목 64개가 포함된 이동 구간을 기반으로 mean, median, min, max가 계산됩니다.