預先定義的資料集網域和資料集類型 - Amazon Forecast

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

預先定義的資料集網域和資料集類型

若要訓練預測器,您可以建立一或多個資料集、將其新增到資料集群組,並提供資料集群組用於訓練。

對於您建立的每個資料集,您會建立資料集網域和資料集類型的關聯。資料集網域會指定常用案例的預先定義資料集結構描述,而且不會影響模型演算法或超參數。

Amazon Forecast 支援以下資料集網域:

每個網域可以有一到三個資料集類型。您為網域建立的資料集類型,取決於您擁有的資料類型和您想包含在訓練中的內容。

每個網域都需要目標時間序列資料集,並選擇性地支援相關的時間序列資料集類型和項目中繼資料集類型。

資料集類型為:

  • 目標時間序列 — 唯一需要的資料集類型。此類型定義您要為其產生預測的目標欄位。例如,如果要預測一組產品的銷售額,則必須為您要預測的每個產品建立歷史時間序列資料的資料集。同樣地,您也可以為您可能想要預測的量度 (例如收入、現金流量和銷售額) 建立目標時間序列資料集。

  • 相關時間序列 — 與目標時間序列資料相關的時間序列資料。例如,價格與產品銷售資料相關,所以您可以提供它做為相關時間序列。

  • 項目中繼資料 — 適用於目標時間序列資料的中繼資料。例如,如果您要預測特定產品的銷售額,則該產品的屬性(例如品牌、顏色和類型)將成為項目中繼資料的一部分。預測 EC2 執行個體的 EC2 容量時,中繼資料可能包括執行個體類型的 CPU 和記憶體。

對於每個資料集類型,您的輸入資料必須包含特定的必要欄位。您也可以加入 Amazon Forecast 建議您包含的選用欄位。

以下範例說明如何選擇資料集網域和對應的資料集類型。

範例 1:RETAIL 網域中的資料集類型

如果您是對預測項目需求感興趣的零售商,您可以在 RETAIL 網域中建立以下資料集:

  • 目標時間系列是每個項目 (零售商銷售的每個產品) 的歷史時間序列需求 (銷售額) 資料的必要資料集。在 RETAIL 網域中,這個資料集類型要求資料集包括 item_idtimestampdemand 欄位。demand 欄位是預測目標,通常是零售商在特定的一週或一天內銷售的項目數量。

  • 或者,相關時間序列類型的資料集。在 RETAIL 網域中,這個類型可以包含選用 (但建議) 的時間序列資訊,例如 priceinventory_onhandwebpage_hits

  • 或者,項目中繼資料類型的資料集。在 RETAIL 網域中,Amazon Forecast 建議提供與您在目標時間序列中所提供項目相關的中繼資料資訊,例如 brandcolorcategorygenre

範例 2:METRICS 網域中的資料集類型

如果您想要預測組織的關鍵指標 (例如收入、銷售和現金流量),您可以為 Amazon Forecast Buffest 提供下列資料集:

  • 目標時間序列資料集,提供您想要預測之指標的歷史時間序列資料。如果您想要預測組織中所有業務單位的收入,您可以使用 metricbusiness unitmetric_value 欄位建立 target time series 資料集。

  • 如果您的每個指標有任何非必要的中繼資料,例如 categorylocation,您可以提供相關時間序列和項目中繼資料類型的資料集。

您至少必須提供「Forecast」的目標時間序列資料集,以產生目標指標的預測。

範例 3:CUSTOM 網域中的資料集類型

您預測應用程式的訓練資料有可能不符合任何 Amazon Forecast 網域。如果是這種情況,請選擇 CUSTOM 網域。您必須提供目標時間序列資料集,但您可以新增自己的自訂欄位。

入門練習預測客戶的用電量。用電量訓練資料不符合任何資料集網域,因此我們使用 CUSTOM 網域。在練習中,我們只使用一個資料集類型:目標時間序列類型。我們將資料欄位對應到資料集類型所需的最少欄位。