CreateDatasetImportJob - Amazon Forecast

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

CreateDatasetImportJob

將您的訓練資料匯入 Amazon Forecast 資料集。您可以在 Amazon Simple Storage Service (Amazon S3) 貯體和要匯入資料的資料集的 Amazon 資源名稱 (ARN) 中提供訓練資料的位置。

您必須指定一個DataSource物件,其中包含 Amazon Forecast 可以假定存取資料的 AWS Identity and Access Management (IAM) 角色,因為 Amazon Forecast 會製作資料副本並在內部 AWS 系統中進行處理。如需詳細資訊,請參閱設定權限

訓練資料必須為 CSV 或實木複合地板格式。分隔符號必須是逗號 (,)。

您可以指定特定檔案、S3 儲存貯體或 S3 儲存貯體中資料夾的路徑。對於後兩種情況,Amazon Forecast 匯入的所有檔案不超過 10,000 個檔案。

由於資料集匯入不會彙總,因此最近的資料集匯入是訓練預測值或產生預測時使用的資料集匯入。請確定您最近匯入的資料集包含您想要建模的所有資料,而不僅僅是上次匯入後所收集的新資料。

若要取得依指定條件篩選的所有資料集匯入工作清單,請使用此ListDatasetImportJobs作業。

請求語法

{ "DatasetArn": "string", "DatasetImportJobName": "string", "DataSource": { "S3Config": { "KMSKeyArn": "string", "Path": "string", "RoleArn": "string" } }, "Format": "string", "GeolocationFormat": "string", "ImportMode": "string", "Tags": [ { "Key": "string", "Value": "string" } ], "TimestampFormat": "string", "TimeZone": "string", "UseGeolocationForTimeZone": boolean }

請求參數

請求接受採用 JSON 格式的下列資料。

DatasetArn

您要匯入資料的 Amazon 預測資料集的亞馬遜資源名稱 (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:([a-z\d-]+):forecast:.*:.*:.+

必要:是

DatasetImportJobName

資料集匯入工作的名稱。我們建議在名稱中包含目前的時間戳記,例如,20190721DatasetImport。這可以幫助您避免ResourceAlreadyExistsException發生異常。

類型:字串

長度限制:長度下限為 1。長度上限為 63。

模式:^[a-zA-Z][a-zA-Z0-9_]*

必要:是

DataSource

要匯入的訓練資料的位置,以及 Amazon Forecast 可承擔存取資料的 AWS Identity and Access Management (IAM) 角色。訓練資料必須存放在 Amazon S3 儲存貯體中。

如果使用加密,則DataSource必須包含 AWS Key Management Service (KMS) 金鑰,且 IAM 角色必須允許 Amazon Forecast 權限才能存取金鑰。KMS 金鑰和 IAM 角色必須與CreateDataset作業EncryptionConfig參數中指定的金鑰和 IAM 角色相符。

類型:DataSource 物件

必要:是

Format

匯入資料的格式,CSV 或實木複合地板。預設值為 CSV。

類型:字串

長度限制:最大長度為 7。

模式:^CSV|PARQUET$

必要:否

GeolocationFormat

地理位置屬性的格式。地理位置屬性可以通過以下兩種方式之一進行格式化:

  • LAT_LONG-以十進制格式表示的緯度和經度(例如:47.61_-122.33)。

  • CC_POSTALCODE(僅限美國)-國家/地區代碼(美國),後面接著 5 位數的郵遞區號(例如:US_98121)。

類型:字串

長度限制:長度上限為 256。

模式:^[a-zA-Z0-9_]+$

必要:否

ImportMode

指定資料集匯入工作為FULL還是INCREMENTAL匯入。資料FULL集匯入會以新匯入的資料取代所有現有資料。匯入會將INCREMENTAL匯入的資料附加至既有資料。

類型:字串

有效值:FULL | INCREMENTAL

必要:否

Tags

套用至資料集匯入工作的選擇性中繼資料,可協助您分類和組織這些資料。每個標籤皆包含由您定義的一個金鑰與一個選用值。

以下基本限制適用於標籤:

  • 每個資源的最大標籤數量-50。

  • 對於每一個資源,每個標籤金鑰必須是唯一的,且每個標籤金鑰只能有一個值。

  • 金鑰長度上限-UTF-8 中 128 個萬國碼字元。

  • 最大值長度-UTF-8 中 256 個萬國碼字元。

  • 如果您的標記結構描述是跨多項服務和資源使用,請記得其他服務可能會有字元使用限制。通常允許的字元包括:可用 UTF-8 表示的英文字母、數字和空格,還有以下字元:+ - = . _ : / @。

  • 標籤鍵與值皆區分大小寫。

  • 請勿使用aws:AWS:、或任何大寫或小寫的組合,例如索引鍵的前置字元,因為它會保留供 AWS 使用。您無法使用此字首編輯或刪除標籤關鍵字。值可以有這個前綴。如果標籤值aws作為其前綴,但鍵沒有,則 Forecast 會將其視為使用者標記,並將計入 50 個標籤的限制。只有 key prefix 的標籤aws不會計入每個資源限制的標籤。

類型:Tag 物件陣列

陣列成員:項目數下限為 0。項目數上限為 200。

必要:否

TimestampFormat

資料集中時間戳記的格式。您指定的格式取決於建立資料集時所指DataFrequency定的格式。支持以下格式

  • 「年-月-日」

    對於以下數據頻率:Y,M,W 和 D

  • "yyyy-MM-dd HH:mm:ss"

    對於下列資料頻率:H、30 分鐘、15 分鐘和 1 分鐘;以及可選的,用於 Y、M、W 和 D

如果未指定格式,Amazon Forecast 預期格式為「年-月-日 HH:毫米:SS」。

類型:字串

長度限制:長度上限為 256。

模式:^[a-zA-Z0-9\-\:\.\,\'\s]+$

必要:否

TimeZone

資料集中每個項目的單一時區。此選項非常適合具有所有時間戳記在單一時區內的資料集,或者如果所有時間戳記都標準化為單一時區。

如需有效時區名稱的完整清單,請參閱 Joda-Time API

類型:字串

長度限制:長度上限為 256。

模式:^[a-zA-Z0-9\/\+\-\_]+$

必要:否

UseGeolocationForTimeZone

從地理位置屬性自動導出時區信息。此選項非常適合包含多個時區的時間戳記的資料集,而且這些時間戳記會以本地時間表示。

類型:布林值

必要:否

回應語法

{ "DatasetImportJobArn": "string" }

回應元素

如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

DatasetImportJobArn

資料集匯入任務的 Amazon 資源名稱 (ARN)。

類型:字串

長度限制:長度上限為 256。

模式:arn:([a-z\d-]+):forecast:.*:.*:.+

錯誤

InvalidInputException

我們無法處理要求,因為它包含無效值或超出有效範圍的值。

HTTP 狀態碼:400

LimitExceededException

已超過每個帳號的資源數量限制。

HTTP 狀態碼:400

ResourceAlreadyExistsException

已有具有此名稱的資源。請使用不同的名稱再試一次。

HTTP 狀態碼:400

ResourceInUseException

指定的資源正在使用中。

HTTP 狀態碼:400

ResourceNotFoundException

我們找不到具有該 Amazon 資源名稱(ARN)的資源。請檢查 ARN,然後再試一次。

HTTP 狀態碼:400

另請參閱

如需在其中一個特定語言 AWS SDK 中使用此 API 的詳細資訊,請參閱下列內容: