CreateDataset - Amazon Forecast

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

CreateDataset

创建 Amazon Forecast 数据集。您提供的有关数据集的信息可帮助 Forecast 了解如何使用数据进行模型训练。这包括以下这些:

  • DataFrequency - 收集历史时间序列数据的频率。

  • Domain DatasetType - 每个数据集都有一个关联的数据集域和域内的类型。Amazon Forecast 提供预定义域和每个域中类型的列表。对于每个唯一的数据集域及域内的类型,Amazon Forecast 要求您的数据包含最小的预定义字段集。

  • Schema - 架构指定数据集中的字段,包括字段名称和数据类型。

在创建数据集后,将您的训练数据导入其中并将数据集添加到数据集组。您使用数据集组来创建预测器。有关更多信息,请参阅导入数据集

要获取所有数据集的列表,请使用ListDatasets操作。

有关预测数据集的示例,请参阅 Amazon Forecas GitHub t 示例存储库

注意

在可以导入训练数据之前,数据集的 Status 必须为 ACTIVE。使用 DescribeDataset 操作获取此状态。

请求语法

{ "DataFrequency": "string", "DatasetName": "string", "DatasetType": "string", "Domain": "string", "EncryptionConfig": { "KMSKeyArn": "string", "RoleArn": "string" }, "Schema": { "Attributes": [ { "AttributeName": "string", "AttributeType": "string" } ] }, "Tags": [ { "Key": "string", "Value": "string" } ] }

请求参数

请求接受采用 JSON 格式的以下数据。

DataFrequency

数据收集的频率。此参数对于 RELATED_TIME_SERIES 数据集为必需。

有效间隔为一个整数,后跟 Y(年)、M(月)、W(周)、D(日)、H(小时)和 min(分钟)。例如,“1D”表示每天,“15min”表示每 15 分钟。不能指定与下一个较大频率重叠的值。例如,这意味着您不能将频率指定为 60 分钟,因为这相当于 1 小时。每个频率的有效值如下所示:

  • 分钟 - 1-59

  • 小时 - 1-23

  • 天 - 1-6

  • 周 - 1-4

  • 月 - 1-11

  • 年 - 1

因此,如果您想要每隔一周进行一次预测,请指定“2W”。或者,如果您想要每季度预测一次,请指定“3M”。

类型:字符串

长度限制:最小长度为 1。最大长度为 5。

模式:^Y|M|W|D|H|30min|15min|10min|5min|1min$

必需:否

DatasetName

数据集的名称。

类型:字符串

长度限制:最小长度为 1。最大长度为 63。

模式:^[a-zA-Z][a-zA-Z0-9_]*

必需:是

DatasetType

数据集类型。有效值取决于选定的 Domain

类型:字符串

有效值:TARGET_TIME_SERIES | RELATED_TIME_SERIES | ITEM_METADATA

必需:是

Domain

与数据集关联的域。将数据集添加到数据集组时,此值和为CreateDatasetGroup操作Domain参数指定的值必须匹配。

您选择的 DomainDatasetType 决定导入到数据集的训练数据中必须存在的字段。例如,如果您选择 RETAIL 域和 TARGET_TIME_SERIES 作为 DatasetType,Amazon Forecast 要求数据中存在 item_idtimestampdemand 字段。有关更多信息,请参阅导入数据集

类型:字符串

有效值:RETAIL | CUSTOM | INVENTORY_PLANNING | EC2_CAPACITY | WORK_FORCE | WEB_TRAFFIC | METRICS

必需:是

EncryptionConfig

AWS Key Management Service(KMS)密钥和 Amazon Forecast 可以代入以访问密钥的 AWS Identity and Access Management(IAM)角色。

类型:EncryptionConfig 对象

必需:否

Schema

数据集的架构。架构属性及其顺序必须与数据中的字段匹配。您选择的数据集 DomainDatasetType 可确定训练数据所需的最少字段。有关特定数据集域和类型所需字段的信息,请参阅数据集域和数据集类型

类型:Schema 对象

必需:是

Tags

您应用于数据集以帮助您对其进行分类和组织的可选元数据。每个标签都包含定义的一个密钥和一个可选值。

下面是适用于标签的基本限制:

  • 每个资源的最大标签数 - 50

  • 对于每个资源,每个标签键都必须是唯一的,每个标签键只能有一个值。

  • 最大键长度 - 128 个 Unicode 字符(采用 UTF-8 格式)

  • 最大值长度 - 256 个 Unicode 字符(采用 UTF-8 格式)

  • 如果您的标记模式针对多个服务和资源使用,请记得其它服务可能对允许使用的字符有限制。通常允许使用的字符包括:可用 UTF-8 格式表示的字母、数字和空格,以及以下字符:+ - = . _ : / @。

  • 标签键和值区分大小写。

  • 请不要使用 aws:AWS: 或任何大写或小写组合(例如键的前缀),因为其将保留以供 AWS 使用。不能编辑或删除带该前缀的标签键。值可以带有该前缀。如果标签值将 aws 作为其前缀,但键没有前缀,则 Forecast 会将其视为用户标签,并将计入 50 个标签的限制。仅具有 aws 的键前缀的标签不计入每个资源的标签数限制。

类型:Tag 对象数组

数组成员:最少 0 个物品。最多 200 个物品。

必需:否

响应语法

{ "DatasetArn": "string" }

响应元素

如果此操作成功,则该服务将会发送回 HTTP 200 响应。

服务以 JSON 格式返回以下数据。

DatasetArn

数据集的 Amazon 资源名称(ARN)。

类型:字符串

长度限制:最大长度为 256。

模式:arn:([a-z\d-]+):forecast:.*:.*:.+

错误

InvalidInputException

我们无法处理该请求,因为其包含无效值或超出有效范围的值。

HTTP 状态代码:400

LimitExceededException

超过了每个账户的资源数量限制。

HTTP 状态代码:400

ResourceAlreadyExistsException

已存在同名资源。请使用不同的名称重试。

HTTP 状态代码:400

另请参阅

有关在特定语言的 AWS SDK 中使用此 API 的更多信息,请参阅以下内容: