Amazon SageMaker キャンバスの時系列予測 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker キャンバスの時系列予測

注記

時系列予測モデルは表形式のデータセットでのみサポートされます。

Amazon SageMaker Canvas では、機械学習による時系列予測を使用できます。時系列予測では、時間によって変化する予測を行うことができます。

時系列予測は、以下のような例に使用できます。

  • 今後数か月の在庫を予測する。

  • 今後 4 か月間に販売される商品の数。

  • ホリデーシーズン期間中に販売価格を引き下げることによる影響。

  • 今後 12 か月間の商品の在庫。

  • 今後数時間以内に店舗に入店する顧客の数。

  • 商品価格の 10% 引き下げが一定の期間における売上高に及ぼす影響の予測。

時系列予測を行うには、データセットに以下のものが必要です。

  • すべての値が datetime 型のタイムスタンプ列。

  • 未来の値を予測するために使用する値が入ったターゲット列。

  • SKU 番号など、データセット内の各項目に固有の識別子を含むアイテム ID 列。

タイムスタンプ列の datetime 値は、次のいずれかの形式を使用する必要があります。

  • YYYY-MM-DD HH:MM:SS

  • YYYY-MM-DDTHH:MM:SSZ

  • YYYY-MM-DD

  • MM/DD/YY

  • MM/DD/YY HH:MM

  • MM/DD/YYYY

  • YYYY/MM/DD HH:MM:SS

  • YYYY/MM/DD

  • DD/MM/YYYY

  • DD/MM/YY

  • DD-MM-YY

  • DD-MM-YYYY

次の間隔で予測を行うことができます。

  • 1 分

  • 5 分

  • 15 分

  • 30 分

  • 1 時間

  • 1 日

  • 1 週間

  • 1 か月

  • 1 年

入力データセットの将来の値

Canvasは、future 値が含まれる可能性のあるデータセット内の列を自動的に検出します。これらの値が存在する場合、予測の精度を高めることができます。Canvas Future values はこれらの特定の列にラベルを付けます。Canvasは、これらの列のデータと予測しようとしているターゲット列との関係を推測し、その関係を利用してより正確な予測を生成します。

食料品店が販売するアイスクリームの量の予測などに使用できます。予測を行うには、タイムスタンプ列と、食料品店が販売したアイスクリームの量を示す列が必要です。より正確な予測のために、データセットに価格、外界温度、アイスクリームのフレーバー、またはアイスクリームの一意の識別子を含めることもできます。

気温が暖かいとアイスクリームの売上が増える可能性があります。アイスクリームの値下げが、販売数の増加につながることもあります。外界温度データの列と価格データの列があると、食料品店が販売するアイスクリームの個数をより正確に予測できます。

future 値の指定は任意ですが、Canvas アプリケーションで直接 What-If 分析を実行できるため、future 値の変化によって予測がどのように変わる可能性があるかがわかります。

欠損値の処理

さまざまな理由でデータが欠落している場合もあります。データが欠落している理由によって、Canvasにデータを代入する方法が決まる場合があります。例えば、組織では、販売が発生したときのみ追跡する自動システムが使用されることがあります。このようなタイプの自動システムからのデータセットを使用すると、ターゲット列の値が欠落します。

重要

ターゲット列に欠損値がある場合は、欠損値のないデータセットを使用することをお勧めします。 SageMaker Canvasはターゲット列を使用してfuture 値を予測します。ターゲット列の値が欠落していると、予測の精度が大幅に低下することがあります。

データセット内の欠損値については、Canvas はターゲット列にその列の中央値を、0他の数値列にはその列の中央値を代入して、欠損値を自動的に代入します。

ただし、データセット内のターゲット列やその他の数値列には、独自の入力ロジックを選択できます。ターゲット列には、他の数値列とは異なる filling ガイドラインと制限があります。ターゲット列は過去の期間の終わりまで入力されますが、数値列は予測範囲の終わりまで過去とfuture 期間の両方で入力されます。Canvasは、future タイムスタンプを持つレコードとその特定の列の値を持つレコードがデータに少なくとも1つある場合にのみ、数値列にfuture 値を入力します。

次の入力ロジックオプションのいずれかを選択して、データ内の欠損値を代入できます。

  • zero— 埋める。0

  • NaN— NaN を入力するか、数値を入力しないでください。これはターゲット列でのみサポートされます。

  • mean— データ系列の平均値を入力します。

  • median— データ系列の中央値を入力します。

  • min— データ系列の最小値を入力します。

  • max— データ系列の最大値を入力します。

充填ロジックを選択するときは、モデルがそのロジックをどのように解釈するかを考慮する必要があります。たとえば、小売シナリオでは、入手可能な品目の売上がゼロを記録することと、入手不可能な品目の売上をゼロに記録することと、入手できない品目の売上を記録することと異なります。後者のシナリオは、必ずしも購入できない品目に対する顧客の関心の欠如を意味するわけではないからです。この場合、データセットのターゲット列を入力すると、モデルの予測に偏りが生じ、入手できない品目に対する顧客の関心が欠如していると推測される可能性があります。0逆に、を埋めると、販売されている品目のうち、NaN実際に販売されている品目がまったくない場合をモデルが無視してしまう可能性があります。

予測のタイプ

以下のいずれかのタイプの予測を行うことができます。

  • 1 つの項目

  • すべての項目

データセット内のすべてのアイテムの予測について、 SageMaker Canvasはデータセット内の各アイテムのfuture 値の予測を返します。

単一アイテムの予測の場合、アイテムを指定すると、 SageMaker Canvasはfuture 値の予測を返します。予測では、予測値を時系列でプロットする折れ線グラフも表示されます。