CreateDatasetImportJob - Amazon Forecast

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

CreateDatasetImportJob

将训练数据导入 Amazon Forecast 数据集。您应提供训练数据在 Amazon Simple Storage Service(Amazon S3)存储桶中的位置以及要将数据导入到的数据集的 Amazon 资源名称(ARN)。

您必须指定一个包含一个 AWS Identity and Access Management (IAM) 角色的DataSource对象,Amazon Forecast 可以代入该角色来访问数据,因为 Amazon Forecast 会生成您的数据副本并在内部 AWS 系统中对其进行处理。有关更多信息,请参阅设置权限

训练数据必须采用 CSV 或 Parquet 格式。分隔符必须是逗号 (,)。

您可以指定特定文件、S3 存储桶或 S3 存储桶中的文件夹的路径。对于后两种情况,Amazon Forecast 会导入所有文件,上限为 10,000 个文件。

由于未聚合数据集导入,因此最近的数据集导入是在训练预测器或生成预测时使用的数据集导入。确保最近的数据集导入中包含您在建模时希望使用的所有数据,而不仅仅是自上次导入以来收集的新数据。

要获取按指定条件筛选的所有数据集导入任务的列表,请使用ListDatasetImportJobs操作。

请求语法

{ "DatasetArn": "string", "DatasetImportJobName": "string", "DataSource": { "S3Config": { "KMSKeyArn": "string", "Path": "string", "RoleArn": "string" } }, "Format": "string", "GeolocationFormat": "string", "ImportMode": "string", "Tags": [ { "Key": "string", "Value": "string" } ], "TimestampFormat": "string", "TimeZone": "string", "UseGeolocationForTimeZone": boolean }

请求参数

请求接受采用 JSON 格式的以下数据。

DatasetArn

您要将数据导入到的 Amazon Forecast 数据集的 Amazon 资源名称(ARN)。

类型:字符串

长度约束:最大长度为 256。

模式:arn:([a-z\d-]+):forecast:.*:.*:.+

必需:是

DatasetImportJobName

数据集导入作业的名称。我们建议在名称中包含当前时间戳,例如 20190721DatasetImport。这可以帮助您避免出现 ResourceAlreadyExistsException 异常。

类型:字符串

长度限制:最小长度为 1。最大长度为 63。

模式:^[a-zA-Z][a-zA-Z0-9_]*

必需:是

DataSource

要导入的训练数据的位置以及 Amazon Forecast 可以代入的访问数据的 AWS Identity and Access Management (IAM) 角色。训练数据必须存储在 Amazon S3 存储桶中。

如果使用加密,则DataSource必须包含 AWS Key Management Service (KMS) 密钥,并且 IAM 角色必须允许 Amazon Forecast 访问该密钥。KMS 密钥和 IAM 角色必须与CreateDataset操作EncryptionConfig参数中指定的密钥和 IAM 角色相匹配。

类型:DataSource 对象

必需:是

Format

导入数据的格式,CSV 或 PARQUET。默认值为 CSV。

类型:字符串

长度限制:最大长度为 7。

模式:^CSV|PARQUET$

必需:否

GeolocationFormat

地理位置属性的格式。地理位置属性可以采用以下两种方式之一进行格式化:

  • LAT_LONG - 以十进制格式表示的纬度和经度(示例:47.61_-122.33)。

  • CC_POSTALCODE(仅限美国)- 国家/地区代码(US),后面是 5 位数的邮政编码(示例:US_98121)。

类型:字符串

长度约束:最大长度为 256。

模式:^[a-zA-Z0-9_]+$

必需:否

ImportMode

指定数据集导入作业是 FULL 还是 INCREMENTAL 导入。FULL 数据集导入会将所有现有数据替换为新导入的数据。INCREMENTAL 导入会将导入的数据附加到现有数据中。

类型:字符串

有效值:FULL | INCREMENTAL

必需:否

Tags

您应用于数据集导入作业以帮助您对其进行分类和组织的可选元数据。每个标签都包含定义的一个密钥和一个可选值。

下面是适用于标签的基本限制:

  • 每个资源的最大标签数 - 50。

  • 对于每个资源,每个标签键都必须是唯一的,每个标签键只能有一个值。

  • 最大键长度 - 128 个 Unicode 字符(采用 UTF-8 格式)。

  • 最大值长度 - 256 个 Unicode 字符(采用 UTF-8 格式)。

  • 如果您的标记模式针对多个服务和资源使用,请记得其它服务可能对允许使用的字符有限制。通常允许使用的字符包括:可用 UTF-8 格式表示的字母、数字和空格,以及以下字符:+ - = . _ : / @。

  • 标签键和值区分大小写。

  • 请勿使用aws:AWS:、或任何大写或小写组合,例如密钥的前缀,因为它是保留供 AWS 使用的。不能编辑或删除带此前缀的标签键。值可以带有该前缀。如果标签值将 aws 作为其前缀,但键没有前缀,则 Forecast 会将其视为用户标签,并将计入 50 个标签的限制。仅具有 aws 的键前缀的标签不计入每个资源的标签数限制。

类型:Tag 对象数组

数组成员:最少 0 个物品。最多 200 项。

必需:否

TimestampFormat

数据集中时间戳的格式。您指定的格式取决于创建数据集时 DataFrequency 指定的格式。支持以下格式。

  • “yyyy-MM-dd”

    适用于以下数据频率:Y、M、W 和 D

  • “yyyy-MM-dd HH:mm:ss”

    适用于以下数据频率:H、30min、15min 和 1min;也可选择用于:Y、M、W 和 D

如果未指定格式,Amazon Forecast 预计格式为“yyyy-MM-dd HH:mm:ss”。

类型:字符串

长度约束:最大长度为 256。

模式:^[a-zA-Z0-9\-\:\.\,\'\s]+$

必需:否

TimeZone

数据集中每个项目的单个时区。此选项非常适合所有时间戳都在单个时区内的数据集,或者所有时间戳都标准化为单个时区的数据集。

有关有效时区名称的完整列表,请参阅 Joda-Time API

类型:字符串

长度约束:最大长度为 256。

模式:^[a-zA-Z0-9\/\+\-\_]+$

必需:否

UseGeolocationForTimeZone

自动从地理位置属性中获取时区信息。此选项非常适合包含多个时区的时间戳且这些时间戳以当地时间表示的数据集。

类型:布尔值

必需:否

响应语法

{ "DatasetImportJobArn": "string" }

响应元素

如果此操作成功,则该服务将会发送回 HTTP 200 响应。

服务以 JSON 格式返回以下数据。

DatasetImportJobArn

数据集导入作业的 Amazon 资源名称(ARN)。

类型:字符串

长度约束:最大长度为 256。

模式:arn:([a-z\d-]+):forecast:.*:.*:.+

错误

InvalidInputException

我们无法处理该请求,因为其包含无效值或超出有效范围的值。

HTTP 状态代码:400

LimitExceededException

超过了每个账户的资源数量限制。

HTTP 状态代码:400

ResourceAlreadyExistsException

已存在同名资源。请使用不同的名称重试。

HTTP 状态代码:400

ResourceInUseException

指定的资源正在使用中。

HTTP 状态代码:400

ResourceNotFoundException

我们找不到具有该 Amazon 资源名称(ARN)的资源。检查 ARN,然后重试。

HTTP 状态代码:400

另请参阅

有关在特定语言的 AWS SDK 中使用此 API 的更多信息,请参阅以下内容: