K-Means アルゴリズム - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

K-Means アルゴリズム

K-means は、教師なしの学習アルゴリズムです。これは、1 つのグループのメンバーができるだけ類似し、他のグループのメンバーとできるだけ異なる離散グループをデータ内に見つけようとします。類似度を決定するためにアルゴリズムで使用する属性を定義します。

Amazon は、変更されたバージョンのウェブスケール k-means クラスタリングアルゴリズム SageMaker を使用します。アルゴリズムの元のバージョンと比較すると、Amazon で使用されるバージョンの方が正確 SageMaker です。オリジナルのアルゴリズムと同様に、大規模なデータセットにスケールでき、トレーニング時間を改善します。これを行うために、Amazon が使用するバージョンは、トレーニングデータのミニバッチ (小さいランダムなサブセット) を SageMaker ストリーミングします。ミニバッチ k-means の詳細については、Web-scale k-means Clustering (ウェブスケールの k-means クラスタリング) を参照してください。

k-means アルゴリズムは表形式のデータを想定します。表の行はクラスタリングする観測値を表し、列は観測値の属性を表します。各行の n 属性は n 次元空間のポイントを表します。これらのポイント間のユークリッド距離は、対応する観測値の類似度を表します。アルゴリズムは、類似する属性値で観測値をグループ化します (これらの観測値に対応するポイントが近づきます)。Amazon での k-means の仕組みの詳細については SageMaker、「」を参照してくださいK-Means クラスタリングの仕組み

k-means アルゴリズムの入出力インターフェイス

トレーニングの場合、k-means アルゴリズムは、データがトレーニングチャネル (S3DataDistributionType=ShardedByS3Key を推奨) と、データをスコアリングするオプションのテストチャネル (S3DataDistributionType=FullyReplicated を推奨) で提供されることを想定します。トレーニングでは recordIO-wrapped-protobufCSV の両方の形式がサポートされます。ファイルモードまたはパイプモードを使用すると、recordIO-wrapped-protobuf または CSV の形式のデータについてモデルをトレーニングできます。

推論の場合は、text/csvapplication/json、および application/x-recordio-protobuf がサポートされます。k-means は、観測値ごとに closest_cluster ラベルと distance_to_cluster を返します。

入出力ファイル形式の詳細については、k-means のレスポンス形式 (推論の場合) およびk-means サンプルノートブックを参照してください。k-means アルゴリズムは、トレーニングセットがラベル付きの「バッグ」で構成されている複数インスタンスの学習をサポートしていません。各バッグはラベルなしのインスタンスの集合です。

k-means アルゴリズムの EC2 インスタンスに関する推奨事項

k-means は CPU インスタンスでトレーニングすることをお勧めします。GPU インスタンスでトレーニングできますが、インスタンスあたり 1 つの GPU しか使用されないため、GPU トレーニングを単一 GPU インスタンス (ml.g4dn.xlarge など) に制限する必要があります。k-means アルゴリズムは、トレーニングと推論用の P2、P3、G4dn、G5 インスタンスをサポートします。

k-means サンプルノートブック

SageMaker K-means アルゴリズムを使用して、米国の郡の母集団を、主成分分析を使用して識別された属性でセグメント化するサンプルノートブックについては、「Amazon を使用して母集団セグメンテーションの米国国勢調査データを分析する SageMaker」を参照してください。でサンプルを実行するために使用できる Jupyter Notebook インスタンスを作成してアクセスする方法については SageMaker、「」を参照してくださいAmazon SageMaker Notebook インスタンス。ノートブックインスタンスを作成して開いたら、SageMaker「例」タブを選択して、すべての SageMaker サンプルのリストを表示します。ノートブックを開くには、その [Use (使用)] タブをクリックして [Create copy (コピーを作成)] を選択します。