PCA アルゴリズムの入出力インターフェイス PCA アルゴリズムの EC2 インスタンスに関する推奨事項サンプルノートブック

主成分分析法 (PCA) アルゴリズム

PCA は教師なし機械学習アルゴリズムで、できる限りの情報を保持しながら、データセット内の次元 (特徴の数) の縮退を試行します。これは、互いに相関しない元の特徴のコンポジットである、成分と呼ばれる新しい特徴のセットを見つけることで行われます。また、それらには制限が設けられているため、最初の成分はデータ内で考えられる最大の変動性、2 番目の成分は 2 番目に大きな変動性と続きます。

Amazon SageMaker AI では、PCA はシナリオに応じて 2 つのモードで動作します。

regular: 疎データと標準的な数の観測および特徴を備えたデータセットの場合。
randomized: 多数の観測および特徴の両方を備えたデータセットの場合。このモードは近似アルゴリズムを使用します。

PCA は表形式のデータを使用します。

行は低次元空間に組み込む観測を表します。列は減少した近似を見つける特徴を表します。アルゴリズムは共分散行列 (または分散方式での近似値) を計算し、その後このサマリーに対して特異値分解を実行して、主成分を生成します。

トピック

PCA アルゴリズムの入出力インターフェイス
PCA アルゴリズムの EC2 インスタンスに関する推奨事項
PCA サンプルノートブック
PCA の仕組み
PCA のハイパーパラメータ
PCA のレスポンス形式

PCA アルゴリズムの入出力インターフェイス

PCA はトレーニングのために、トレーニングチャネルで提供されるデータを想定し、テストアルゴリズムに渡されたデータセットをオプションでサポートします。このデータセットは最終的なアルゴリズムで採点されます。トレーニングでは recordIO-wrapped-protobuf と CSV の両方の形式がサポートされます。ファイルモードまたはパイプモードを使用すると、recordIO-wrapped-protobuf または CSV の形式のデータについてモデルをトレーニングできます。

推論については、PCA は text/csv、application/json、application/x-recordio-protobuf に対応しています。結果は application/json またはapplication/x-recordio-protobuf 形式のいずれかが "射影" のベクトルとともに返されます。

入出力ファイル形式の詳細については、PCA のレスポンス形式 (推論の場合) およびPCA サンプルノートブックを参照してください。

PCA アルゴリズムの EC2 インスタンスに関する推奨事項

PCA は、トレーニングと推論用の CPU インスタンスと GPU インスタンスをサポートします。最もパフォーマンスの高いインスタンスタイプは、入力データの仕様に大きく依存します。GPU インスタンスの場合、PCA は P2、P3、G4dn、G5 をサポートします。

PCA サンプルノートブック

SageMaker AI プリンシパルコンポーネント分析アルゴリズムを使用して MNIST データセット内の手書き数字のイメージを 0 から 9 まで分析する方法を示すサンプルノートブックについては、「MNIST を使用した PCA の概要」を参照してください。SageMaker AI でサンプルを実行するために使用できる Jupyter ノートブックインスタンスを作成してアクセスする手順については、「」を参照してくださいAmazon SageMaker ノートブックインスタンス。ノートブックインスタンスを作成して開いたら、SageMaker AI Examples タブを選択して、すべての SageMaker AI サンプルのリストを表示します。NTM アルゴリズムを使用したトピックモデリングのサンプルノートブックは、[Introduction to Amazon algorithm (Amazon アルゴリズムの概要)] セクションにあります。ノートブックを開くには、その [Use (使用)] タブをクリックして [Create copy (コピーを作成)] を選択します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

推論の形式

仕組み