CreateDatasetImportJob - Amazon Forecast

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

CreateDatasetImportJob

将您的训练数据导入到Amazon Forecast 数据集中。您需要提供训练数据在亚马逊Simple Storage Service (Amazon S3) 存储桶中的位置以及要将数据导入的数据集的亚马逊资源名称 (ARN)。

您必须指定DataSource包含 AWS Identity and Access Management (IAM) 角色的对象,Amazon Forecast 可以代入该角色来访问数据,因为 Amazon Forecast 会复制您的数据并在内部 AWS 系统中对其进行处理。有关更多信息,请参阅 。设置权限.

训练数据必须采用 CSV 或 Parquet 格式。分隔符必须是逗号 (,)。

您可以指定特定文件、S3 存储桶或 S3 存储桶中文件夹的路径。对于后两种情况,Amazon Forecast 会导入所有文件,最多不超过 10,000 个文件的限制。

由于数据集导入不是聚合的,因此您最近导入的数据集是训练预测变量或生成预测时使用的数据集。确保您最近导入的数据集包含您要建模的所有数据,而不仅仅是自上次导入以来收集的新数据。

要获取所有数据集导入作业的列表(按指定条件筛选)ListDatasetImportJobs操作。

请求语法

{ "DatasetArn": "string", "DatasetImportJobName": "string", "DataSource": { "S3Config": { "KMSKeyArn": "string", "Path": "string", "RoleArn": "string" } }, "Format": "string", "GeolocationFormat": "string", "Tags": [ { "Key": "string", "Value": "string" } ], "TimestampFormat": "string", "TimeZone": "string", "UseGeolocationForTimeZone": boolean }

请求参数

请求接受采用 JSON 格式的以下数据。

DatasetArn

要将数据导入到的 Amazon Forecast 数据集的 Amazon 资源名称 (ARN)。

类型: 字符串

长度约束:长度上限为 256。

模式:arn:([a-z\d-]+):forecast:.*:.*:.+

必填:是

DatasetImportJobName

数据集导入作业的名称。我们建议在名称中包含当前时间戳,例如20190721DatasetImport. 这可以帮助你避免得到ResourceAlreadyExistsException异常情况。

类型: 字符串

长度约束:最小长度为 1。最大长度为 63。

模式:^[a-zA-Z][a-zA-Z0-9_]*

必填:是

DataSource

要导入训练数据的位置,Amazon Forecast 可以代入以代表您访问数据的 AWS Identity and Accccess Accccccess Accccess 训练数据必须存储在 Amazon S3 存储桶中。

如果使用加密,DataSource必须包含 AWS Key Management Service (KMS) 密钥,并且 IAM 角色必须允许 Amazon Forecast 访问该密钥。KMS 密钥和 IAM 角色必须与中指定的密钥和 IAM 角色相匹配EncryptionConfig的参数CreateDataset操作。

类型:DataSource 对象

必填:是

Format

导入数据的格式,CSV 或 PARQUET。默认值为 CSV。

类型: 字符串

长度约束:最大长度为 7。

模式:^CSV|PARQUET$

必填:否

GeolocationFormat

地理位置属性的格式。地理位置属性可通过以下两种方式之一进行格式化:

  • LAT_LONG-十进制格式的纬度和经度(示例:47.61_-122.33)。

  • CC_POSTALCODE(仅限美国)-国家代码(美国),后面是 5 位数的邮政编码(例如:US_98121)。

类型: 字符串

长度约束:长度上限为 256。

模式:^[a-zA-Z0-9_]+$

必填:否

Tags

您应用于数据集导入作业以帮助您对其进行分类和组织的可需。每个标签都包含您定义的一个键和一个可选值。

下面是适用于标签的基本限制:

  • 每个资源的最大标签数-50。

  • 对于每个资源,每个标签键都必须是唯一的,每个标签键只能有一个值。

  • 最大键长度-128 个 Unicode 字符(采用 UTF-8 格式)

  • 最大值长度-256 个 Unicode 字符(采用 UTF-8 格式)

  • 如果您的标记模式针对多个服务和资源使用,请记得其它服务可能对允许使用的字符有限制。通常允许使用的字符包括:可用 UTF-8 格式表示的字母、数字和空格,以及以下字符:+ - = . _ : / @。

  • 标签键和值区分大小写。

  • 请勿使用aws:,AWS:,或任何大写或或或小写组合(例如,键的前缀),因为它将保留以供 AWS 使用。您无法编辑或删除带此前缀的标签键。值可以有这个前缀。如果标签值有aws作为其前缀但密钥不是,则 Forecast 将其视为用户标签,并将计入 50 个标签的限制。仅带有key prefix 的标签aws请不要计入每个资源的标签数限制。

类型: 数组Tag对象

数组成员:最少 0 项。最多 200 项。

必填:否

TimestampFormat

数据集中时间戳的格式。您指定的格式取决于DataFrequency创建数据集时指填。支持以下格式

  • “yyyy-mm-dd”

    对于以下数据频率:Y、M、W 和 D

  • “yyyy-mm-dd HH: mm: ss”

    对于以下数据频率:H、30 分钟、15 分钟和 1 分钟;可选,用于:Y、M、W 和 D

如果未指定格式,Amazon Forecast 预计格式为 “yyyy-mm-dd HH: mm: ss”。

类型: 字符串

长度约束:长度上限为 256。

模式:^[a-zA-Z0-9\-\:\.\,\'\s]+$

必填:否

TimeZone

数据集中每个项目的单一时区。此选项适用于所有时间戳都在单个时区内的数据集,或者如果所有时间戳都归一化为单个时区。

请参阅Joda-Time API获取有效时区名称的完整列表。

类型: 字符串

长度约束:长度上限为 256。

模式:^[a-zA-Z0-9\/\+\-\_]+$

必填:否

UseGeolocationForTimeZone

自动从地理位置属性中获取时区信息。此选项非常适合包含多个时区的时间戳且这些时间戳以本地时间表示的数据集。

类型: 布尔值

必填:否

响应语法

{ "DatasetImportJobArn": "string" }

响应元素

如果此操作成功,则该服务将会发送回 HTTP 200 响应。

服务以 JSON 格式返回的以下数据。

DatasetImportJobArn

数据集导入任务的 Amazon 资源名称 (ARN)。

类型: 字符串

长度约束:长度上限为 256。

模式:arn:([a-z\d-]+):forecast:.*:.*:.+

错误

InvalidInputException

我们无法处理该请求,因为它包含无效值或超出有效范围的值。

HTTTTTP 状态代码:400

LimitExceededException

已超过每个账户的资源数限制。

HTTTTTP 状态代码:400

ResourceAlreadyExistsException

已经有同名资源了。请使用其他名称重试。

HTTTTTP 状态代码:400

ResourceInUseException

指定的资源正在使用中。

HTTTTTP 状态代码:400

ResourceNotFoundException

我们找不到具有该Amazon 资源名称 (ARN) 的资源。检查 ARN 并重试。

HTTTTTP 状态代码:400

另请参阅

有关在特定语言的 AWS 软件开发工具包中使用此 API 的更多信息,请参阅以下内容: