自定義數據集和模式 - Amazon Personalize

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自定義數據集和模式

建立自訂資料集群組時,您可以從頭開始建立自己的結構描述。自訂資料集群組資料集和結構描述的必填欄位較少,且彈性更高。下列主題說明「自訂」資料集群組之資料集的結構描述和資料需求。每個資料集區段都會列出資料集類型所需的資料,並提供結構描述的 JSON 範例。

如需可匯入到 Amazon Personalize 的資料類型的相關資訊,請參閱資料集。如需 Amazon Personalize 結構描述一般需求的相關資訊,例如格式化要求和可用欄位資料類型,請參閱結構描述。這些要求適用於所有 Amazon Personalize 結構描述。

自訂資料集和結構描述需

當您為「自訂」資料集群組建立資料集時,每個資料集類型都有下列必要欄位和保留關鍵字 (含必要資料類型)。

資料集類型 必要欄位 保留的關鍵字
項目互動 (結構描述範例)

USER_ID (string)

ITEM_ID (string)

TIMESTAMP (long)

EVENT_TYPE (string)

事件值 (,) float null

印象 (string,null)

建議使用 _ID (,) string null

事件 _ 屬性 _ 來源 (,) string null

使用者 (結構描述範例)

USER_ID (string)

1 個中繼資料欄位 (分類string或數字)

項目 (綱要範例)

ITEM_ID (string)

1 個中繼資料欄位 (分類或文字string欄位或數字欄位)

建立時間戳記 () long

動作 (結構描述範例)

動作識別碼 () string

1 個中繼資料欄位 (分類string或數字)

建立時間戳記 () long

值 (long,null)

類型 (string,null)

到期時間戳記 (,) long null

重複 _ 頻率 (,) long null

動作互動 (結構描述範例)

USER_ID (string)

動作識別碼 () string

EVENT_TYPE (string)

TIMESTAMP (long)

印象 (string,null)

建議使用 _ID (,) string null

元數據字段

中繼資料包含不需要或不使用保留關鍵字的字串或非字串欄位。中繼資料結構描述有下列限制:

  • 使用者、項目和動作結構描述至少需要一個中繼資料欄位。

  • 您最多可以為一個 Users 架構新增 25 個中繼資料欄位、100 個項目結構描述的中繼資料欄位,以及 10 個動作結構描述的中繼資料欄位。

  • 如果您新增自己的中繼資料類型欄位string,它必須包含categorical屬性或屬textual性 (只有項目結構描述支援具有文字屬性的欄位)。否則,在訓練模型時,Amazon Personalize 化將不會使用該字段。

保留的關鍵字

保留的關鍵字是選擇性的非中繼資料欄位。這些欄位被視為保留欄位,因為您必須在使用欄位時將這些欄位定義為必要的資料類型,而且關鍵字不能用作資料中的值。保留的分類字串欄位必須categorical設定為true,而保留字串欄位則無法分類。以下是保留關鍵字:

  • EVENT_TYPE:針對具有一或多個事件類型的項目互動資料集,例如下和下載,請使用欄位。EVENT_TYPE您必須將「EVENT_TYPE」欄位定義為,string且無法設定為分類欄位。

  • EVENT_VALUE:對於包含事件值資料的 Item 互動資料集,例如使用者觀看的視訊百分比,請使用具有類型float和選擇性的EVENT_VALUE欄位。null

  • CREATION_TIMESTAMP:對於具有每個項目建立日期時間戳記的「項目」或「動作」資料集,請使用具有類型的CREATION_TIMESTAMP欄位。longAmazon Personalize 會使用CREATION_TIMESTAMP資料來計算項目的使用年限,並相應地調整建議。請參閱創建時間戳數據

  • INIMATE:對於具有明確曝光資料的項目互動資料集,請使用具有類型String和選擇性鍵入的IMPRESSION欄位null。曝光次數是使用者與特定項目互動 (例如,按一下或觀看) 時可見的項目清單。如需更多資訊,請參閱印象資料

  • REGEDATION_ID:對於使用先前建議做為隱含曝光資料的項目互動資料集,選擇性地使用具有類型和選擇性鍵入StringRECOMMENDATION_ID欄位。null

    您不需要為 Amazon Personalize 新增RECOMMENDATION_ID欄位,即可在產生建議時使用隱含曝光次數。您可以recommendationId在沒有它的情況下傳遞一個PutEvents操作。如需更多資訊,請參閱印象資料

  • 值:對於「動作」資料集,如果您對部分或所有動作的資料具有重要性,請在結構描述中新增VALUE欄位。對於其類型,請使用long並選擇性地鍵入null。如需動作及其值的詳細資訊,請參閱值資料

  • ACTION_EXPERIALIDE_TIMESTAMP:對於「動作」資料集,如果您有部分或所有動作的到期時間戳記,請在結構描述中新增欄位ACTION_EXPIRATION_TIMESTAMP。對於其類型,請使用long並選擇性地鍵入null。如需有關到期時間戳記的詳細資訊,請參閱操作到期時間戳記數

  • REPEAT_FERVARY:對於「動作」資料集,如果您有部分或所有動作的重複頻率資料,請在結構描述中新增REPEAT_FREQUENCY欄位。對於其類型,請使用long並選擇性地鍵入null。如需重複頻率資料的詳細資訊,請參閱重複頻率資料