時系列データセットの形式と欠損値の filling メソッド - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

時系列データセットの形式と欠損値の filling メソッド

時系列データとは、一定の時間間隔で記録された観測値または測定値のコレクションを指します。このタイプのデータでは、各観測値が特定のタイムスタンプまたは期間に関連付けられ、時系列に並んだデータポイントのシーケンスが作成されます。

時系列データセットに含める特定の列は、分析の目的と利用できるデータによって異なります。時系列データは、最低でも次の 3 列のテーブルで構成されます。

  • 1 つの列には、特定の時点での値を示すために個々の項目に割り当てられた固有の識別子が含まれます。

  • 別の列は、特定の時点で特定の項目の値を記録する値 point-in-time またはターゲットを表します。これらのターゲット値に基づいてモデルをトレーニングすると、このターゲット列には、定義された期間内に特定の頻度でモデルが予測する値が含まれます。

  • また、値が測定された日付と時刻を記録するタイムスタンプ列も含まれます。

  • 追加の列には、予測パフォーマンスに影響を与える可能性のある他の要因を含めることができます。例えば、売上または収益をターゲットとする小売の時系列データセットには、販売数、製品 ID、店舗の場所、顧客数、在庫レベルに関する情報に加えて、気象データや人口統計情報などの共変量指標に関する情報を提供する機能を含めることができます。

注記

時系列に祝祭日情報の特徴量エンジニアリングされたデータセットを追加することができます。時系列モデルに祝祭日を含めることで、祝祭日が作り出す周期的なパターンをキャプチャすることができます。これにより、予測はデータの基盤となる季節性をより正確に反映できます。国ごとに利用できるカレンダーについては、「祝祭日カレンダー」を参照してください。

時系列予測用のデータセット形式

Autopilot は、数値、カテゴリ、テキスト、および日時データ型をサポートします。ターゲット列のデータ型は数値である必要があります。

Autopilot は、 CSV (デフォルト) ファイルまたは Parquet ファイルとしてフォーマットされた時系列データをサポートします。

  • CSV (comma-separated-values) は、人間が読めるプレーンテキストにデータを保存する行ベースのファイル形式です。これは、さまざまなアプリケーションでサポートされるため、データ交換によく使用される選択肢です。

  • Parquet は、列ベースのファイル形式で、行ベースのファイル形式よりも効率的にデータを格納および処理します。このため、ビッグデータの問題にはより適したオプションです。

Autopilot の予測用時系列データセットのリソース制限の詳細については、「Amazon SageMaker Autopilot 時系列予測リソースの制限」を参照してください。

欠損値の処理

時系列予測データの一般的な問題は、欠落した値の存在です。データには、測定の失敗、フォーマットの問題、人為的ミス、記録する情報の不足など、さまざまな理由で欠落した値が含まれている可能性があります。例えば、小売店の製品需要を予測しているときに、商品が売り切れたり使用不能になったりすると、その品目が在庫切れの間は記録する売上データは存在しないことになります。十分に優勢な場合、欠落した値がモデルの精度に影響を与える可能性があります。

Autopilot は、欠損値を処理するための多数の filling メソッドを提供し、ターゲット列とその他の追加列に対して異なるアプローチで対応します。フィルは、データセット内の欠落しているエントリに標準化された値を追加するプロセスです。

時系列データセットの欠損値を埋めるメソッドを設定する方法については、「入力データセット内の欠損値を処理する方法」を参照してください。

Autopilot では、以下の filling メソッドがサポートされています。

  • 前方フィル: すべての項目の中で最初に記録されたデータポイントと各項目の開始点の間の欠損値を埋めます (各項目は異なる時間に開始できます)。これにより、記録された最も早いデータポイントからそれぞれの開始点まで、確実に各項目のデータが完全になります。

  • 中間フィル: データセットの項目の開始日と終了日の間の欠損値を埋めます。

  • 後方フィル: 各項目の最後のデータポイント (各アイテムは異なる時間に停止できる) とすべての項目の最後に記録されたデータポイントの間の欠損値を埋めます。

  • 将来のフィル: すべての項目の中で最後に記録されたデータポイントから予測期間の終了までの間の欠損値を埋めます。

次の図は、さまざまな filling メソッドを視覚的に示しています。

Amazon SageMaker Autopilot での時系列予測のさまざまな filling メソッド。

filling ロジックの選択

フィルロジックを選択するときは、モデルによってロジックがどのように解釈されるかを考慮する必要があります。たとえば、小売のシナリオでは、利用可能な品目の販売数 0 を記録することは、利用できない品目の販売数 0 を記録することとは異なります。後者の場合、品目に対するお客様の関心がないことを意味するものではありません。このため、時系列のターゲット列での 0 filling では、予測で予測子の偏りが不足することがありますが、NaN filling では、販売されている利用可能な品目 0 個の実際の出現が無視され、予測子の偏りが過剰になる可能性があります。

filling ロジック

データセット内のターゲット列やその他の数値列に filling を実行できます。ターゲット列には、他の数値列とは異なる filling ガイドラインと制限があります。

フィルガイドライン

列のタイプ デフォルトでフィルしますか? サポートされているフィル方法 デフォルトのフィルロジック 受け入れられた filling ロジック
ターゲット列 あり 中間フィルと後方フィル 0
  • zero - 0 filling。

  • value -整数または浮動小数。

  • nan -数字ではありません。

  • mean -データ系列の平均値。

  • median -データ系列の中央値。

  • min -データ系列の最小値。

  • max -データ系列の最大値。

その他の数値列 なし 中間、後方、および将来のフィル デフォルトなし
  • zero - 0 filling。

  • value - 整数または浮動小数点値。

  • mean -データ系列の平均値。

  • median -データ系列の中央値。

  • min -データ系列の最小値。

  • max -データ系列の最大値。

注記

ターゲット列およびその他の数値列の両方について、meanmedianmin、および max は、欠損値より前の最新の 64 個のデータエントリのローリングウィンドウに基づいて計算されます。