K 平均數超參數 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

K 平均數超參數

CreateTrainingJob 請求中,請指定您想要使用的訓練演算法。您也可以將演算法特定的超參數指定為 map。 string-to-string 下表列出 Amazon 提供的 k 均值訓練演算法的超參數。 SageMaker如需 K 平均數如何建立叢集的詳細資訊,請參閱K 平均數叢集的運作方式

參數名稱 描述
feature_dim

輸入資料中的特徵數量。

必要

有效值:正整數

k

所需叢集的數目。

必要

有效值:正整數

epochs

經由訓練資料傳遞完成的次數。

選用

有效值:正整數

預設值:1

eval_metrics

用於報告模型分數的指標類型 JSON 清單。允許的值為用於均方偏差的 msd 和用於平方距離總和的 ssd。如果提供測試資料,則針對每個請求的指標回報分數。

選用

有效值:[\"msd\"][\"ssd\"][\"msd\",\"ssd\"]

預設值:[\"msd\"]

extra_center_factor

此演算法會在執行時建立 K 個中心 = num_clusters * extra_center_factor,並在完成模型時將中心的數量從 K 縮減至 k

選用

有效值:正整數或 auto

預設值:auto

half_life_time_size

在計算叢集平均值時用以判斷提供給觀察項的權重。此權重也會隨著觀察到更多點,呈指數衰減。當首先觀察到點時,它會在計算叢集平均值時獲指派權數 1。針對指數衰減函式選擇衰減不變,以便在觀察 half_life_time_size 個點後,其權重為 1/2。若設為 0,則不會衰減。

選用

有效值:非負整數

預設值:0

init_method

演算法選擇初始叢集中心的方法。標準 k 平均值方法會隨機選擇它們。其他 k 平均值++ 方法隨機選擇第一個叢集中心。然後,依與現有中心剩餘資料點的距離平方呈成比的機率分布,按比例選取中心,散布剩餘初始叢集的位置。

選用

有效值:randomkmeans++

預設值:random

local_lloyd_init_method

用來建置包含 k 個中心之最終模型的 Lloyd 最大期望 (EM) 程序初始化方法。

選用

有效值:randomkmeans++

預設值:kmeans++

local_lloyd_max_iter

用來建置包含 k 個中心之最終模型的 Lloyd 最大期望 (EM) 程序疊代運算次數上限。

選用

有效值:正整數

預設值:300

local_lloyd_num_trials

損失最少之 Lloyd 最大期望 (EM) 程序的次數,是在建置包含 k 個中心的最終模型時執行。

選用

有效值:正整數或 auto

預設值:auto

local_lloyd_tol

用來建置包含 k 個中心之最終模型以提早停止 Lloyd 最大期望 (EM) 程序的損失變更容錯能力。

選用

有效值:浮點數。範圍在 [0, 1] 之間。

預設值:0.0001

mini_batch_size

資料反覆運算器每個微型批次的觀察項數量。

選用

有效值:正整數

預設值:5000