功能儲存概念 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

功能儲存概念

我們會列出 Amazon SageMaker Feature Store 中使用的常用詞彙,後面接著範例圖表,以視覺化幾個概念:

  • Feature Store:機器學習 (ML) 特徵的儲存和資料管理層。作為儲存、擷取、移除、追蹤、共用、探索和控制功能存取的單一事實來源。在以下範例圖中,Feature Store 是特徵群組的儲存,其中包含您的機器學習 (ML) 資料,並提供其他服務。

  • 線上儲存:特徵群組的低延遲、高可用性的儲存,可實現即時查詢記錄。線上商店允許透過 GetRecord 快速存取最新記錄API。

  • 離線儲存放:將歷史資料存放在 Amazon S3 儲存貯體中。當不需要低 (低於一秒) 的延遲讀取時,會使用離線存放區。例如,當您要儲存和提供用於探索、模型訓練和批次推論的功能時,可以使用離線儲存。

  • 特徵群組:Feature Store 的主要資源,其中包含用於訓練或預測機器學習 (ML) 模型的資料和中繼資料。功能群組是用於描述記錄的功能的邏輯群組。在下列範例圖中,特徵群組包含機器學習 (ML) 資料。

  • 特徵:用來做為使用機器學習 (ML) 模型進行訓練或預測的輸入之一的屬性。在特徵存放區API中, 功能是記錄的屬性。在下列範例圖中,特徵說明機器學習 (ML) 資料表中的資料行。

  • 功能定義:由名稱和資料類型之一組成:整數、字串或分數。功能群組包含功能定義的清單。若要取得有關特徵商店資料類型的更多資訊,請參閱資料類型

  • 記錄:單一記錄識別碼的功能值集合。記錄識別碼和事件時間值的組合可獨特地識別功能群組中的記錄。在下列範例圖中,記錄是機器學習 (ML) 資料表中的資料列。

  • 記錄識別碼名稱:記錄識別碼名稱是識別記錄的功能名稱。它必須參照功能群組的功能定義中定義的功能名稱之一。每個功能群組均使用記錄識別碼名稱定義。

  • 事件時間:您提供與記錄事件發生時相對應的時間戳記。功能群組中的所有記錄都必須有對應的事件時間。線上儲存僅包含與最新活動時間對應的記錄,而離線儲存則包含所有歷史記錄。如需事件時間格式的詳細資訊,請參閱資料類型

  • 擷取:將新記錄新增特徵群組中。擷取通常透過 PutRecord 達成API。

概念概觀圖

下面的範例圖概念化了一些功能儲存概念:

An example representation of a feature group using an example table as reference.

Feature Store 包含您的特徵群組,而特徵群組包含您的機器學習 (ML) 資料。在範例圖中,原始功能群組包含具有三個功能 (每個功能描述一欄) 和兩個記錄 (列) 的資料表。

  • 功能的定義描述了與記錄相關聯的功能值的功能名稱和資料類型。

  • 記錄包含功能值,並由其記錄標識符唯一標識,並且必須包括事件時間。

擷取圖

擷取是將一筆或多筆記錄加入至既有功能群組的動作。線上和離線存放區會針對不同的存放區使用案例進行不同的更新。

擷取至線上儲存範例

線上商店可做為記錄的即時查詢,而且只會保留最多 up-to-date的記錄。將記錄擷取到現有的線上商店後,更新的線上商店只會保留具有最新事件時間的記錄。

在下列範例圖表中,原始線上存放區包含一個記錄的 ML 資料表。擷取的記錄與原始記錄具有相同的記錄識別符名稱,而擷取的記錄的事件時間比原始記錄更早。由於更新的線上商店只會保留具有最新事件時間的記錄,因此更新的線上商店包含原始記錄。

An example showing how records are ingested in the online store.

擷取至離線儲存範例

離線儲存充當記錄的歷史查找,並保留所有記錄。將新記錄導入現有的離線存放區後,更新的離線存放區將保留新記錄。

在下列範例圖表中,原始離線存放區包含一個記錄的 ML 資料表。擷取的記錄與原始記錄具有相同的記錄識別符名稱,而擷取的記錄的事件時間早於原始記錄。隨著更新的離線存放區保留所有記錄,更新的離線存放區包含兩個記錄。

An example showing how records are ingested in the offline store.