预定义数据集域和数据集类型 - Amazon Forecast

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

预定义数据集域和数据集类型

要训练预测器,请创建一个或多个数据集,将其添加到一个数据集组,然后提供该数据集组以进行训练。

对于您创建的每个数据集,您将一个数据集域和一个数据集类型相关联。数据集域 为常见用例指定预定义的数据集架构,不影响模型算法或超参数。

Amazon Forecast 支持以下数据集域:

每个域都可以有一到三个数据集类型。您为域创建的数据集类型基于您拥有的数据的类型和要包含在训练中的内容。

每个域都需要一个目标时间序列数据集,并且可选支持相关时间序列和项目元数据数据集类型。

数据集类型为:

  • 目标时间序列-唯一必需的数据集类型。此类型定义您要为其生成预测的目标字段。例如,如果要预测一组产品的销售额,您必须为要预测的每个产品创建历史时间序列数据的数据集。同样,您可以为可能需要预测的指标(例如收入、现金流和销售额)创建目标时间序列数据集。

  • 相关时间序列-与目标时间序列数据相关的时间序列数据。例如,价格与产品销售数据相关,因此您可以将其作为相关时间序列提供。

  • 项目元数据-适用于目标时间序列数据的元数据。例如,如果您要预测特定产品的销售额,则该产品的属性(例如品牌、颜色和流派)将成为商品元数据的一部分。当预测 EC2 实例的 EC2 容量时,元数据可能包含实例类型的 CPU 和内存。

对于每个数据集类型,您的输入数据必须包含某些必填字段。您还可以包含 Amazon Forecast 建议您包含的可选字段。

以下示例演示如何选择数据集域和相应的数据集类型。

例 示例 1:零售域中的数据集类型

如果您是对预测商品需求感兴趣的零售商,则可以在 RETAIL 域中创建以下数据集:

  • 目标时间序列是每个商品(零售商出售的每个产品)的历史时间序列需求(销售)的必需数据集。在 RETAIL 域中,此数据集类型要求数据集包含 item_idtimestampdemand 字段。demand 字段是预测目标,并且通常是零售商在某个特定周或日内出售的商品的数量。

  • (可选)相关时间序列类型的数据集。在 RETAIL 域中,此类型可包含可选但建议的时间序列信息,例如 priceinventory_onhandwebpage_hits

  • (可选)项目元数据类型的数据集。在 RETAIL 域中,Amazon Forecast 建议提供与您在目标时间序列中提供的商品相关的元数据信息,如 brandcolorcategorygenre

例 示例 2:METRICS 域中的数据集类型

如果您想预测组织的关键指标(例如收入、销售和现金流),可以向 Amazon Forecast 提供以下数据集:

  • 为要预测的指标提供历史时间序列数据的目标时间序列数据集。如果您的兴趣是预测您组织中所有业务部门的收入,您可以使用 metricbusiness unitmetric_value 字段创建 target time series 数据集。

  • 如果您有针对不需要的每个指标的任何元数据(如 categorylocation),则可以提供相关时间序列和项目元数据类型的数据集。

至少,您必须为 Forecast 提供目标时间序列数据集,以便为目标指标生成预测。

例 示例 3:自定义域中的数据集类型

您的预测应用程序的训练数据可能不适合任何 Amazon Forecast 域。在这种情况下,请选择 CUSTOM 域。您必须提供目标时间序列数据集,但可以添加您自己的自定义字段。

入门练习预测了某个客户端的用电量。用电量训练数据不适合任何数据集域,因此我们使用了 CUSTOM 域。在该练习中,我们仅使用一个数据集类型 - 目标时间序列类型。我们将数据字段映射到数据集类型所需的最少数量的字段。