K-Means アルゴリズム - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

K-Means アルゴリズム

K-means は、教師なしの学習アルゴリズムです。これは、1 つのグループのメンバーができるだけ類似し、他のグループのメンバーとできるだけ異なる離散グループをデータ内に見つけようとします。類似度を決定するためにアルゴリズムで使用する属性を定義します。

アマゾン SageMaker Web スケールk-means アルゴリズムにデータが変更される教師なしアルゴリズムです。アルゴリズムにデータが比較される教師なしアルゴリズムです。 SageMaker より正確です。オリジナルのアルゴリズムと同様に、大規模なデータセットにスケールでき、トレーニング時間を改善します。そのためには、Amazon が使用しているバージョンを使用してください。 SageMaker トレーニングデータがミニバッチ (小さなランダムなサブセット) にデータがストリーミングされる教師なしです。ミニバッチ k-means の詳細については、Web-scale k-means Clustering (ウェブスケールの k-means クラスタリング) を参照してください。

k-means アルゴリズムは表形式のデータを想定します。表の行はクラスタリングする観測値を表し、列は観測値の属性を表します。各行の n 属性は n 次元空間のポイントを表します。これらのポイント間のユークリッド距離は、対応する観測値の類似度を表します。アルゴリズムは、類似する属性値で観測値をグループ化します (これらの観測値に対応するポイントが近づきます)。アルゴリズムアルゴリズムがどう機能するかについての詳細はこちら SageMaker、を参照してくださいK-Means クラスタリングの仕組み

k-means アルゴリズムの入出力インターフェイス

トレーニングの場合、k-means アルゴリズムは、データがトレーニングチャネル (S3DataDistributionType=ShardedByS3Key を推奨) と、データをスコアリングするオプションのテストチャネル (S3DataDistributionType=FullyReplicated を推奨) で提供されることを想定します。トレーニングでは recordIO-wrapped-protobufCSV の両方の形式がサポートされます。ファイルモードまたはパイプモードを使用すると、recordIO-wrapped-protobuf または CSV の形式のデータについてモデルをトレーニングできます。

推論の場合は、text/csvapplication/json、および application/x-recordio-protobuf がサポートされます。k-means は、観測値ごとに closest_cluster ラベルと distance_to_cluster を返します。

入出力ファイル形式の詳細については、k-means のレスポンス形式 (推論の場合) およびk-means サンプルノートブックを参照してください。k-means アルゴリズムは、トレーニングセットがラベル付きの「バッグ」で構成されている複数インスタンスの学習をサポートしていません。各バッグはラベルなしのインスタンスの集合です。

k-means アルゴリズムの EC2 インスタンスに関する推奨事項

k-means は CPU インスタンスでトレーニングすることをお勧めします。GPU インスタンスでトレーニングを行うことはできますが、インスタンスごとに 1 つの GPU しか使用されないため、GPU トレーニングは単一 GPU インスタンス (ml.g4dn.xlarge など) に限定する必要があります。k-means アルゴリズムは、P2、P3、G4Dn、G5 インスタンスをトレーニングと推論でサポートします。

k-means サンプルノートブック

を使用するサンプルノートブックの場合 SageMaker 主成分分析を使用して特定された属性によって米国の郡の人口をセグメント化する K-means アルゴリズムについては、以下を参照してください。Amazon を使用して米国の国勢調査データを分析して人口を細分化します。 SageMaker。Jupyter ノートブックインスタンスを作成してアクセスする手順は、で例を実行するために使用できます。 SageMaker、を参照してくださいAmazon SageMaker ノートブックインスタンス。ノートブックインスタンスを作成して開いたら、SageMaker例:タブにデータがグループ化される教師なしです SageMaker サンプル。ノートブックを開くには、その [Use (使用)] タブをクリックして [Create copy (コピーを作成)] を選択します。