Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA) - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Algorithmus für die Hauptkomponentenanalyse (Principal Component Analysis, PCA)

Die PCA ist ein unüberwachter Machine Learning-Algorithmus, der versucht, die Dimensionalität (Anzahl der Merkmale) innerhalb eines Datensatzes zu reduzieren und zugleich so viele Informationen wie möglich beizubehalten. Dies geschieht, indem eine neue Menge an Merkmalen, sogenannte Komponenten, ermittelt wird, die Composites der ursprünglichen, nicht miteinander korrelierten Merkmale sind. Sie sind ebenfalls eingeschränkt, sodass die erste Komponente die größtmögliche Variabilität der Daten umfasst, die zweite Komponente die zweitgrößte Variabilität und so weiter.

Bei Amazon SageMakerarbeitet PCA je nach Szenario in zwei Modi:

  • regulär: Für Datensätze mit spärlichen Daten und einer moderaten Anzahl von Beobachtungen und Merkmalen.

  • randomisiert: Für Datensätze mit einer großen Anzahl von Beobachtungen und Merkmalen. Dieser Modus verwendet einen Approximationsalgorithmus.

PCA verwendet tabellarische Daten.

Die Zeilen enthalten die Beobachtungen, die in einen Raum mit geringerer Dimensionalität eingebettet werden sollen. Die Spalte enthält die Merkmale, für die Sie eine reduzierte Approximation suchen. Der Algorithmus berechnet die Kovarianzmatrix (oder eine Approximation davon in verteilter Form) und wendet dann eine Singulärwertzerlegung auf diese Zusammenfassung an, um die Hauptkomponenten zu ermitteln.

E/A-Schnittstelle für den PCA-Algorithmus

Für die Schulung der PCA müssen die Daten über den Schulungskanal bereitgestellt werden. Optional wird ein Dataset unterstützt, der an das Testdataset weitergeleitet und vom finalen Algorithmus bewertet wird. Die Formate recordIO-wrapped-protobuf und CSV werden beide für die Schulung unterstützt. Sie können entweder den Datei- oder den Pipe-Modus verwenden, um Modelle mit Daten, die als recordIO-wrapped-protobuf oder CSV formatiert sind, zu schulen.

Für Inferenzen unterstützt PCA text/csv, application/json und application/x-recordio-protobuf. Ergebnisse werden entweder im Format application/json oder application/x-recordio-protobuf mit dem Vektor "Projektionen" zurückgegeben.

Weitere Informationen über die Eingabe- und Ausgabedateiformate finden Sie unter PCA-Antwortformate für Inferenz und unter PCA-Beispiel-Notebooks.

EC2-Instance-Empfehlung für den PCA-Algorithmus

PCA unterstützt CPU- und GPU-Instanzen für Training und Inferenz. Welcher Instance-Typ am leistungsstärksten ist, hängt hauptsächlich von den Besonderheiten der Eingabedaten ab. Für GPU-Instances unterstützt PCA P2, P3, G4dn und G5.

PCA-Beispiel-Notebooks

Ein Beispiel-Notizbuch, das zeigt, wie Sie SageMaker Hauptkomponentenanalyse-Algorithmus zur Analyse der Bilder handgeschriebener Ziffern von null bis neun im MNIST-Datensatz, sieheEine Einführung in PCA mit MNIST. Anweisungen zum Erstellen und Zugreifen auf Jupyter-Notebook-Instanzen, die Sie zum Ausführen des Beispiels verwenden können, finden Sie SageMaker, sieheVerwenden von Amazon SageMaker Notebook Instances. Nachdem Sie eine Notebook-Instanz erstellt und geöffnet haben, wählen SieSageMaker BeispieleTab, um eine Liste aller SageMaker Stichproben. Die Beispiel-Notebooks zur Themenmodellierung unter Verwendung der NTM-Algorithmen finden Sie im Abschnitt Einführung in die Amazon-Algorithmen. Zum Öffnen eines Notebooks klicken Sie auf die Registerkarte Use (Verwenden) und wählen Sie Create copy (Kopie erstellen) aus.