k-means アルゴリズムの入出力インターフェイス k-means アルゴリズムの EC2 インスタンスに関する推奨事項サンプルノートブック

K-Means アルゴリズム

K-means は、教師なしの学習アルゴリズムです。これは、1 つのグループのメンバーができるだけ類似し、他のグループのメンバーとできるだけ異なる離散グループをデータ内に見つけようとします。類似度を決定するためにアルゴリズムで使用する属性を定義します。

Amazon SageMaker AI は、変更されたバージョンのウェブスケール k-means クラスタリングアルゴリズムを使用します。アルゴリズムの元のバージョンと比較して、Amazon SageMaker AI で使用されるバージョンの方が正確です。オリジナルのアルゴリズムと同様に、大規模なデータセットにスケールでき、トレーニング時間を改善します。これを行うために、Amazon SageMaker AI が使用するバージョンは、トレーニングデータのミニバッチ (小さいランダムなサブセット) をストリーミングします。ミニバッチ k-means の詳細については、Web-scale k-means Clustering (ウェブスケールの k-means クラスタリング) を参照してください。

k-means アルゴリズムは表形式のデータを想定します。表の行はクラスタリングする観測値を表し、列は観測値の属性を表します。各行の n 属性は n 次元空間のポイントを表します。これらのポイント間のユークリッド距離は、対応する観測値の類似度を表します。アルゴリズムは、類似する属性値で観測値をグループ化します (これらの観測値に対応するポイントが近づきます)。Amazon SageMaker AI での k-means の仕組みの詳細については、「」を参照してくださいK-Means クラスタリングの仕組み。

トピック

k-means アルゴリズムの入出力インターフェイス

トレーニングの場合、k-means アルゴリズムは、データがトレーニングチャネル (S3DataDistributionType=ShardedByS3Key を推奨) と、データをスコアリングするオプションのテストチャネル (S3DataDistributionType=FullyReplicated を推奨) で提供されることを想定します。トレーニングでは recordIO-wrapped-protobuf と CSV の両方の形式がサポートされます。ファイルモードまたはパイプモードを使用すると、recordIO-wrapped-protobuf または CSV の形式のデータについてモデルをトレーニングできます。

推論の場合は、text/csv、application/json、および application/x-recordio-protobuf がサポートされます。k-means は、観測値ごとに closest_cluster ラベルと distance_to_cluster を返します。

入出力ファイル形式の詳細については、k-means のレスポンス形式 (推論の場合) およびk-means サンプルノートブックを参照してください。k-means アルゴリズムは、トレーニングセットがラベル付きの「バッグ」で構成されている複数インスタンスの学習をサポートしていません。各バッグはラベルなしのインスタンスの集合です。

k-means アルゴリズムの EC2 インスタンスに関する推奨事項

k-means は CPU インスタンスでトレーニングすることをお勧めします。GPU インスタンスでトレーニングできますが、インスタンスあたり 1 つの GPU しか使用されないため、GPU トレーニングを単一 GPU インスタンス (ml.g4dn.xlarge など) に制限する必要があります。k-means アルゴリズムは、トレーニングと推論用の P2、P3、G4dn、G5 インスタンスをサポートします。

k-means サンプルノートブック

SageMaker AI K-means アルゴリズムを使用して、米国郡の母集団を、主成分分析を使用して識別された属性でセグメント化するサンプルノートブックについては、Amazon SageMaker AI を使用して母集団セグメンテーションの米国国勢調査データを分析する」を参照してください。SageMaker AI でサンプルを実行するために使用できる Jupyter ノートブックインスタンスを作成してアクセスする手順については、「」を参照してくださいAmazon SageMaker ノートブックインスタンス。ノートブックインスタンスを作成して開いたら、SageMaker AI Examples タブを選択して、すべての SageMaker AI サンプルのリストを表示します。ノートブックを開くには、その [Use (使用)] タブをクリックして [Create copy (コピーを作成)] を選択します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

推論

仕組み