数据集Forecast 准则 - Amazon Forecast

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据集Forecast 准则

如果 Amazon Forecast 无法导入您的数据集,或者您的数据集无法按预期运行,请参阅以下指南。

时间戳格式

Fot (一年)Y), 月 (M),周 (W) 和 Day (D) 收集频率,Forecast 支持yyyy-MM-dd时间戳格式(例如,2019-08-21)以及(可选)HH:mm:ss格式(例如2019-08-21 15:00:00)。

For Hour (小时H) 和分钟 (M) 频率,Forecast 仅支持yyyy-MM-dd HH:mm:ss格式(例如2019-08-21 15:00:00)。

准则:将数据集收集频率的时间戳格式更改为支持的格式。

Amazon S3 文件或存储桶

导入数据集时,您可以指定包含数据的亚马逊简单存储服务 (Amazon S3) 存储桶中的 CSV 或 Parquet 文件的路径,也可以指定包含您的数据的 S3 存储桶的名称。如果您指定 CSV 或 Parquet 文件,则 Forecast 只导入该文件。如果您指定 S3 存储桶,Forecast 会导入该存储桶中的所有 CSV 或 Parquet 文件,最多可导入 10,000 个文件。如果您通过指定存储段名称导入多个文件,则所有 CSV 或 Parquet 文件都必须符合指定的架构。

准则:使用以下语法指定特定文件或 S3 存储桶:

s3://bucket-name/example-object.csv

s3://bucket-name/example-object.parquet

s3://bucket-name/prefix/

s3://bucket-name

Parquet 文件的扩展名可以是 .parquet、.parq、.pqt,或者根本没有扩展名。

数据集更新

由于未聚合数据集导入作业,因此最近的数据集导入是在训练预测器或生成预测时使用的数据集导入。

准则:确保您最近导入的数据集包含您要建模的所有数据,而不仅仅是自上次导入以来收集的新数据。

属性顺序

架构定义中指定的属性的顺序必须与要导入的 CSV 或 Parquet 文件中的列顺序相匹配。例如,如果你定义了timestamp作为第一个属性,那么timestamp也必须是输入文件中的第一列。

准则:确认输入文件中的列与您创建的架构属性的顺序相同。

天气指数

要应用天气指数,您必须包括一个地理位置属性在您的目标时间序列和任何相关的时间序列数据集中。此外,您还需要指定时区用于您的目标时间序列时间戳。

准则:确保您的数据集包含地理位置属性,并且您的时间戳已分配时区。有关更多信息,请参阅天气指数条件和限制。

数据集标头

输入 CSV 中的数据集标题可能会导致验证错误。我们建议省略 CSV 文件的标题。

准则:删除数据集标题,然后重试导入。

Parquet 文件需要数据集标头。

数据集状态

在使用导入训练数据之前CreateDatasetImportJob操作,此Status的数据集必须为ACTIVE.

准则:使用DescribeDataset操作,获取数据集的状态。如果创建或更新数据集失败,请检查数据集文件的格式并尝试再次创建它。

默认文件格式

默认文件格式为 CSV。

文件格式和分隔符

Forecast 仅支持逗号分隔值 (CSV) 文件格式和 Parquet 格式。不能使用制表符、空格、冒号或任何其他字符分隔值。

准则:将您的数据集转换为 CSV 格式(仅使用逗号作为分隔符)或 Parquet 格式,然后尝试再次导入文件。

文件名

文件名必须包含至少一个字母字符。无法导入纯数字名称的文件。

准则:重命名您的输入数据文件以包含至少一个字母字符,然后尝试再次导入该文件。

分区Parquet 数据

Forecast 无法读取已分区的 Parquet 文件。