k-Means-Algorithmus - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

k-Means-Algorithmus

Der k-Means-Algorithmus ist ein unüberwachter Lernalgorithmus. Es versucht, diskrete Gruppierungen innerhalb von Daten zu finden, wobei Mitglieder einer Gruppe sich so ähnlich wie möglich sein sollen und sich so stark wie möglich von Mitgliedern anderer Gruppen unterscheiden sollen. Sie definieren die Attribute, die der Algorithmus zum Ermitteln der Ähnlichkeit verwenden soll.

Amazon SageMaker verwendet eine modifizierte Version des k-means-Clustering-Algorithmus im Webmaßstab. Verglichen mit der Originalversion des Algorithmus, der von Amazon verwendeten Version SageMaker ist genauer. Sie ist, wie der ursprüngliche Algorithmus, für riesige Datensätze skalierbar und bringt Verbesserungen hinsichtlich der Schulungszeit. Dazu die von Amazon verwendete Version SageMaker streamt Mini-Batches (kleine, zufällige Teilmengen) der Trainingsdaten. Weitere Informationen zu k-Means-Mini-Stapeln finden Sie unter Web-scale k-means Clustering.

Der k-Means-Algorithmus erwartet tabellarische Daten, wobei die Zeilen die Beobachtungen darstellen, die Sie clustern möchten, und die Spalten die Attribute der Beobachtungen. Die n Attribute in den einzelnen Zeilen stellen einen Punkt im n-dimensionalen Raum dar. Der euklidisch Abstand zwischen diesen Punkten stellt die Ähnlichkeit der entsprechenden Beobachtungen dar. Der Algorithmus gruppiert die Beobachtungen mit ähnlichen Attributen (die Punkte, die diesen Beobachtungen entsprechen, sind näher beieinander). Weitere Informationen zur Funktionsweise von k-means in Amazon SageMaker, sieheSo funktioniert das Clustering mit k-Means-Algorithmen.

E/A-Schnittstelle für den k-Means-Algorithmus

Für die Schulung nimmt der k-Means-Algorithmus an, dass die Daten in einem Schulungskanal (empfohlen S3DataDistributionType=ShardedByS3Key), mit einem optionalen Testkanal (empfohlen S3DataDistributionType=FullyReplicated) bereitgestellt werden, für den die Daten bewertet werden. Die Formate recordIO-wrapped-protobuf und CSV werden beide für die Schulung unterstützt. Sie können entweder den Datei- oder den Pipe-Modus verwenden, um Modelle mit Daten, die als recordIO-wrapped-protobuf oder CSV formatiert sind, zu schulen.

Für Inferenz werden text/csv, application/json und application/x-recordio-protobuf unterstützt. k-Means gibt eine closest_cluster-Bezeichnung und die distance_to_cluster für jede Beobachtung zurück.

Weitere Informationen über die Eingabe- und Ausgabedateiformate finden Sie unter k-Means-Antwortformate für Inferenz und unter k-Means-Beispiel-Notebooks. Der k-Means-Algorithmus unterstützt kein Mehrfach-Instance-Lernen, bei dem der Schulungssatz aus gekennzeichneten „Data Bags” besteht, von denen jede eine Sammlung von nicht gekennzeichneten Instances ist.

EC2-Instance-Empfehlung für den k-Means-Algorithmus

Wir empfehlen, k-Means-Algorithmen auf CPU-Instances zu schulen. Sie können auf GPU-Instanzen trainieren, sollten jedoch das GPU-Training auf Einzel-GPU-Instanzen (wie ml.g4dn.xlarge) beschränken, da nur eine GPU pro Instanz verwendet wird. Der K-Means-Algorithmus unterstützt P2-, P3-, G4dn- und G5-Instanzen für Training und Inferenz.

k-Means-Beispiel-Notebooks

Für ein Beispiel-Notizbuch, das die SageMaker K-Means-Algorithmus zur Segmentierung der Bevölkerung von Landkreisen in den Vereinigten Staaten nach Attributen, die mithilfe der Hauptkomponentenanalyse identifiziert wurdenAnalysieren Sie US-Volkszählungsdaten auf Bevölkerungssegmentierung mithilfe von Amazon SageMaker. Anweisungen zum Erstellen und Zugreifen auf Jupyter-Notebook-Instanzen, mit denen Sie das Beispiel ausführen können, finden Sie in SageMaker, sieheVerwenden von Amazon SageMaker Notebook Instances. Nachdem Sie eine Notebook-Instanz erstellt und geöffnet haben, wählen SieSageMakerBeispielezeigt eine Liste aller SageMaker Beispiele. Zum Öffnen eines Notebooks klicken Sie auf die Registerkarte Use (Verwenden) und wählen Sie Create copy (Kopie erstellen) aus.