Forecast 的資料集指引 - Amazon Forecast

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Forecast 的資料集指引

如果 Amazon Forecast 無法匯入您的資料集,或您的資料集無法如預期般運作,請參閱下列準則。

時間戳記格式

對於「年」(Y)、「月 (M)」、「週 (W)」和「日」(D) 收集頻率,「Forecast」支援yyyy-MM-dd時間戳記格式 (例如,2019-08-21) 和選擇性的HH:mm:ss格式 (例如,2019-08-21 15:00:00)。

對於「小時」(H) 和「分鐘」(M) 頻率,「Forecast」僅支援yyyy-MM-dd HH:mm:ss格式 (例如2019-08-21 15:00:00)。

準則:將資料集收集頻率的時間戳記格式變更為支援的格式。

Amazon S3 文件或存儲桶

匯入資料集時,您可以在包含資料的 Amazon Simple Storage Service (Amazon S3) 儲存貯體中指定 CSV 或實木複合地板檔案的路徑,或是包含資料的 S3 儲存貯體名稱。如果您指定 CSV 或實木複合地板檔案,「Forecast」只會匯入該檔案。如果您指定 S3 儲存貯體,Forecast 會匯入儲存貯體中的所有 CSV 或實木複合地板檔案,最多可匯入 10,000 個檔案。如果您透過指定值區名稱匯入多個檔案,則所有 CSV 或 Parquet 檔案都必須符合指定的結構描述。

指導方針:使用下列語法指定特定檔案或 S3 儲存貯體:

s3://bucket-name/example-object.csv

s3://bucket-name/example-object.parquet

s3://bucket-name/prefix/

s3://bucket-name

實木複合地板文件可以具有擴展名為 .實木複合地板,.parq,.pqt,或根本沒有擴展名。

完整資料集更新

您的第一個資料集匯入永遠是完整匯入,後續匯入可以是完整更新或增量更新。您必須使用 Forecast API 來指定匯入模式。

透過完整更新,所有現有資料都會被新匯入的資料取代。由於完整資料集匯入工作不會彙總,因此最近的資料集匯入是訓練預測值或產生預測時所使用的匯入。

準則:建立增量資料集更新,將新資料附加至現有資料。否則,請確定您最近的資料集匯入包含您要建模的所有資料,而不僅僅是上次匯入後收集的新資料。

增量資料集更新

諸如時間戳,數據格式,地理位置等字段都是從當前活動數據集中讀取的。您不需要在增量資料集匯入中包含此資訊。如果包含它們,它們必須與原始提供的值相符。

指導方針:執行完整的資料集匯入,以變更任何這些值。

屬性順序

結構定義中指定的屬性順序必須與您要匯入的 CSV 或 Parquet 檔案中的欄順序相符。例如,如果您定義timestamp為第一個屬性,則也timestamp必須是輸入檔案中的第一欄。

指導原則:確認輸入檔案中的資料行順序與您建立的結構描述屬性相同。

天氣指數

若要套用天氣指數,您必須在目標時間序列和任何相關的時間序列資料集中包含地理位置屬性。您還需要為目標時間序列時間戳記指定時區

準則:請確定您的資料集包含地理位置屬性,而且您的時間戳記具有指派的時區。有關更多信息,請參閱天氣指數條件和限制。

資料集標頭

輸入 CSV 中的資料集標頭可能會造成驗證錯誤。建議您省略 CSV 檔案的標頭。

準則:刪除資料集標頭,然後再次嘗試匯入。

Parquet 檔案需要資料集標頭。

資料集狀態

在您可以使用CreateDatasetImportJob作業匯入訓練資料之前,資料集Status的必須是ACTIVE

準則:使用 DescribeDataset 操作取得資料集的狀態。如果無法建立或更新資料集,請檢查資料集檔案的格式,再次嘗試建立資料集。

預設檔案格式

預設檔案格式為 CSV。

檔案格式和分隔符號

Forecast 僅支援逗號分隔值 (CSV) 檔案格式和鑲木地板格式。您無法使用 Tab 字元、空格、冒號或任何其他字元來分隔值。

準則:將資料集轉換為 CSV 格式 (僅使用逗號作為分隔符號) 或 Parquet 格式,然後再次嘗試匯入檔案。

檔案名稱

檔案名稱至少必須包含一個字母字元。無法匯入名稱僅含數字的檔案。

指導原則:將輸入資料檔案重新命名為至少包含一個字母字元,然後再次嘗試匯入檔案。

分區的鑲木資料

Forecast 不會讀取分區的鑲木地板文件。

假設分析資料集需求

假設分析需要 CSV 資料集。 TimeSeriesSelector 操作的操CreateWhatIfAnalysis作和 TimeSeriesReplacementDataSource 操作CreateWhatIfForecast不接受實木複合地板文件。