Forecast 데이터 세트 지침 - Amazon Forecast

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Forecast 데이터 세트 지침

Amazon Forecast가 데이터 세트를 가져오지 못하거나 데이터 세트가 예상대로 작동하지 않는 경우 다음 지침을 참조하세요.

타임스탬프 형식

Forecast는 수집 빈도 단위가 년(Y), 월(M), 주(W), 일(D)일 경우 yyyy-MM-dd 타임스탬프 형식(예: 2019-08-21)과 필요에 따라 HH:mm:ss 형식(예: 2019-08-21 15:00:00)을 지원합니다.

빈도 단위가 시간(H) 및 분(M)일 경우에는 Forecast가 yyyy-MM-dd HH:mm:ss 형식(예: 2019-08-21 15:00:00)만 지원합니다.

지침: 데이터 세트의 수집 빈도에 따른 타임스탬프 형식을 지원되는 형식으로 변경하십시오.

Amazon S3 파일 또는 버킷

데이터 세트를 가져올 때 데이터가 포함된 Amazon Simple Storage Service(S3) 버킷의 CSV 또는 Parquet 파일 경로나 데이터가 포함된 S3 버킷의 이름을 지정할 수 있습니다. CSV 또는 Parquet 파일을 지정하는 경우 Forecast는 해당 파일만 가져옵니다. S3 버킷을 지정하면 Forecast는 버킷의 CSV 또는 Parquet 파일을 최대 10,000개까지 모두 가져옵니다. 버킷 이름을 지정하여 다수의 파일을 가져올 때는 모든 CSV 파일 또는 Parquet 파일이 지정된 스키마를 따라야 합니다.

지침: 특정 파일 또는 S3 버킷을 지정할 때 사용하는 구문은 다음과 같습니다.

s3://bucket-name/example-object.csv

s3://bucket-name/example-object.parquet

s3://bucket-name/prefix/

s3://bucket-name

Parquet 파일의 확장자는 .parquet, .parq, .pqt거나 확장자가 전혀 없을 수도 있습니다.

전체 데이터 세트 업데이트

첫 번째 데이터 세트 가져오기는 항상 전체 가져오기이며, 이후 가져오기는 전체 또는 증분 업데이트일 수 있습니다. 가져오기 모드를 지정하려면 Forecast API를 사용해야 합니다.

전체 업데이트에서는 기존 데이터가 모두 새로 가져온 데이터로 대체됩니다. 전체 데이터 세트 가져오기 작업은 집계되지 않으므로, 예측기를 훈련하거나 예측을 생성할 때 가장 최근 데이터 세트 가져오기가 사용됩니다.

지침: 증분 데이터 세트 업데이트를 생성하여 새 데이터를 기존 데이터에 추가하세요. 그렇지 않다면 가장 최근 데이터 세트 가져오기에 이전 가져오기 이후 수집된 새 데이터뿐만 아니라 모델링하려는 모든 데이터가 포함되어 있는지 확인합니다.

증분 데이터 세트 업데이트

타임스탬프, 데이터 형식, 지리적 위치 등과 같은 필드는 현재 활성 데이터 세트에서 읽힙니다. 증분 데이터 세트 가져오기에 이 정보를 포함할 필요는 없습니다. 포함된 경우 원래 제공된 값과 일치해야 합니다.

지침: 이러한 값을 변경하려면 전체 데이터 세트 가져오기를 수행하세요.

속성 순서

스키마 정의에 지정된 속성의 순서는 가져오는 CSV 또는 Parquet 파일의 열 순서와 일치해야 합니다. 예를 들어, timestamp를 첫 번째 속성으로 정의한 경우 timestamp는 입력 파일에서도 첫 번째 열이어야 합니다.

지침: 입력 파일의 열 순서가 생성한 스키마 속성과 동일한지 확인합니다.

날씨 지수

날씨 지수를 적용하려면 대상 시계열 및 모든 관련 시계열 데이터 세트에 지리적 위치 속성을 포함해야 합니다. 또한 대상 시계열 타임스탬프의 시간대를 지정해야 합니다.

지침: 데이터 세트에 지리적 위치 속성이 포함되고 타임스탬프에 시간대가 할당되었는지 확인하세요. 자세한 내용은 날씨 지수 조건 및 제한을 참조하세요.

데이터 세트 헤더

입력 CSV의 데이터 세트 헤더로 인해 검증 오류가 발생할 수 있습니다. CSV 파일의 헤더를 생략하는 것이 좋습니다.

지침: 데이터 세트 헤더를 삭제하고 가져오기를 다시 시도합니다.

Parquet 파일에는 데이터 세트 헤더가 필요합니다.

데이터 세트 상태

CreateDatasetImportJob 작업으로 훈련 데이터를 가져오려면 데이터 세트의 StatusACTIVE여야 합니다.

지침: 데이터 세트의 상태를 가져올 때는 DescribeDataset 작업을 사용하십시오. 데이터 세트를 생성 또는 업데이트하지 못했다면 데이터 세트 파일의 형식을 확인한 후 다시 생성하십시오.

기본 파일 형식

기본 파일 형식은 CSV입니다.

파일 형식 및 구분 기호

Forecast는 쉼표로 구분된 값(CSV) 파일 형식 및 Parquet 형식만 지원합니다. 탭, 공백, 콜론 또는 기타 문자를 사용해도 값을 서로 구분할 수는 없습니다.

지침: 데이터 세트를 CSV 형식(쉼표만 구분 기호로 사용) 또는 Parquet 형식으로 변환한 후 파일 가져오기를 다시 시도합니다.

파일 이름

파일 이름에는 알파벳이 1개 이상 포함되어야 합니다. 이름에 숫자만 있는 파일은 가져올 수 없습니다.

지침: 최소 하나의 영문자가 포함되도록 입력 데이터 파일의 이름을 바꾼 후 파일 가져오기를 다시 시도합니다.

파티션된 Parquet 데이터

Forecast는 파티션된 Parquet 파일을 읽지 않습니다.

what-if 분석 데이터 세트 요구 사항

what-if 분석에는 CSV 데이터 세트가 필요합니다. TimeSeriesSelector 작업 조작 및 Parquet 파일 허용 CreateWhatIfForecast 안 함 TimeSeriesReplacementDataSource 작업 CreateWhatIfAnalysis