k-means モデルを調整する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

k-means モデルを調整する

自動モデル調整は、ハイパーパラメータ調整とも呼ばれ、データセットのさまざまなハイパーパラメータをテストする多数のジョブを実行して、モデルの最適なバージョンを見つけます。調整可能なハイパーパラメータ、それぞれの値の範囲、および目標メトリクスを選択します。アルゴリズムが計算するメトリクスから目標メトリクスを選択します。自動モデル調整は、選択されたハイパーパラメータを検索して、目標メトリクスを最適化するモデルになる値の組み合わせを見つけます。

Amazon SageMaker k-means アルゴリズムは、メンバーを可能な限り類似させるクラスターにデータをグループ化する教師なしアルゴリズムです。教師なしであるため、ハイパーパラメータの最適化に利用できる検証データセットは使用されません。ただし、テストデータセットを使用して、各トレーニング実行の最後にデータポイントから最終的なクラスターの重心までの距離の 2 乗に依存するメトリクスを出力します。テストデータセットの最も厳密なクラスターを報告するモデルを見つけるには、ハイパーパラメータ調整ジョブを使用します。クラスターはそれらのメンバーの類似性を最適化します。

モデル調整の詳細については、「を使用した自動モデル調整 SageMaker」を参照してください。

k-means アルゴリズムによって計算されたメトリクス

k-means アルゴリズムは、トレーニング中に以下のメトリクスを計算します。モデルを調整するときに、これらのメトリクスの 1 つを目標メトリクスとして選択します。

メトリクス名 説明 最適化の方向
test:msd

テストセット内の各レコードからモデルの最も近い中心までの距離の 2 乗の平均。

最小化

test:ssd

テストセット内の各レコードからモデルの最も近い中心までの距離の 2 乗の合計。

最小化

調整可能な k-means ハイパーパラメータ

次のハイパーパラメータを使用して Amazon SageMaker k-means モデルを調整します。k-means 目標メトリクスに最も大きな影響を与えるハイパーパラメータは、mini_batch_sizeextra_center_factor、および init_method です。ハイパーパラメータ epochs を調整すると、一般的に小さな改善が見られます。

Parameter Name パラメータタイプ 推奨範囲
epochs

IntegerParameter範囲

MinValue: 1, MaxValue:10

extra_center_factor

IntegerParameter範囲

MinValue: 4, MaxValue:10

init_method

CategoricalParameter範囲

['kmeans++', 'random']

mini_batch_size

IntegerParameter範囲

MinValue: 3000, MaxValue:15000