Forecast のデータセットのガイドライン - Amazon Forecast

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Forecast のデータセットのガイドライン

Amazon Forecast がデータセットのインポートに失敗する場合、またはデータセットが期待どおりに機能しない場合は、次のガイドラインを参照してください。

タイムスタンプ形式

年 (Y)、月 (M)、週 (W)、および日 (D) の収集頻度の場合、Forecast は yyyy-MM-dd タイムスタンプ形式 (例: 2019-08-21) と、オプションで HH:mm:ss 形式 (例: 2019-08-21 15:00:00) をサポートします。

時 (H) と分 (M) の頻度では、Forecast は yyyy-MM-dd HH:mm:ss 形式 (例: 2019-08-21 15:00:00) のみをサポートしています。

ガイドライン: データセットの収集頻度のタイムスタンプ形式を、サポートされている形式に変更します。

Amazon S3 ファイルまたはバケット

データセットをインポートする場合、データを含む Amazon Simple Storage Service (Amazon S3) バケット内の CSV ファイルまたは Parquet ファイルへのパス、またはデータを含む S3 バケットの名前を指定できます。CSV ファイルまたは Parquet ファイルを指定すると、Forecast はそのファイルだけをインポートします。S3 バケットを指定すると、Forecast はバケット内のすべての CSV ファイルまたは Parquet ファイルを最大 10,000 ファイルインポートします。バケット名を指定して複数のファイルをインポートする場合、すべての CSV ファイルまたは Parquet ファイルは指定されたスキーマに準拠している必要があります。

ガイドライン: 次の構文を使用して、特定のファイルまたは S3 バケットを指定します。

s3://bucket-name/example-object.csv

s3://bucket-name/example-object.parquet

s3://bucket-name/prefix/

s3://bucket-name

Parquet ファイルには、.parquet、.parq、.pqt という拡張子が付いている場合もあれば、拡張子がまったくない場合もあります。

データセットの更新

データセットのインポートジョブは集計されないため、最新のデータセットインポートは、予想子のトレーニング時や予測の生成時に使用されるものです。

ガイドライン: 最新のデータセットインポートに、前回のインポート以降に収集された新しいデータだけでなく、モデル化するすべてのデータが含まれていることを確認します。

属性の順序

スキーマ定義で指定された属性の順序は、インポートする CSV ファイルまたは Parquet ファイルの列の順序と一致する必要があります。たとえば、次のように定義したとします。timestamp最初の属性として、timestamp入力ファイルの最初の列でもある必要があります。

ガイドライン: 入力ファイル内の列が、作成したスキーマ属性と同じ順序になっていることを確認します。

Weather Index

Weather Index を適用するには、ターゲットの時系列および関連する時系列データセットに geolocation 属性を含める必要があります。また、ターゲットの時系列タイムスタンプのタイムゾーンを指定する必要があります。

ガイドライン: データセットに geolocation 属性が含まれており、タイムスタンプにタイムゾーンが割り当てられているようにしてください。詳細については、Weather Index の「Conditions and Restrictions」(条件と制約事項) を参照してください。

データセットヘッダー

入力 CSV のデータセットヘッダーが原因で検証エラーが発生する可能性があります。CSV ファイルではヘッダーを省略することをお勧めします。

ガイドライン: データセットのヘッダーを削除して、インポートを再試行してください。

Parquet ファイルにはデータセットヘッダーが必要です。

データセットのステータス

CreateDatasetImportJob オペレーションでトレーニングデータをインポートするには、データセットの StatusACTIVE である必要があります。

ガイドライン: を使用するDescribeDatasetデータセットのステータスを取得する操作。データセットの作成または更新に失敗した場合は、データセットファイルの形式を確認して、もう一度作成してください。

デフォルトのファイル形式

デフォルトのファイル形式は CSV です。

ファイル形式と区切り記号

Forecast では、カンマ区切り値 (CSV) ファイル形式と Parquet 形式のみがサポートされています。タブ、スペース、コロン、またはその他の文字を使用して値を区切ることはできません。

ガイドライン: データセットを CSV 形式 (区切り文字としてカンマのみを使用) または Parquet 形式に変換し、ファイルをインポートし直してください。

ファイル名

ファイル名には、アルファベットを 1 文字以上含める必要があります。名前が数値のみのファイルはインポートできません。

ガイドライン: 少なくとも 1 つのアルファベット文字を含むように入力データファイルの名前を変更し、ファイルをインポートし直してください。

パーティション分割されたParquet データ

Forecastはパーティション化されたParquetファイルを読み取らない