Optimieren eines k-Means-Modells - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Optimieren eines k-Means-Modells

Die automatische Modelloptimierung, auch bekannt als Hyperparameter-Optimierung, sucht die beste Version eines Modells, indem viele Aufträge ausgeführt werden, die eine Bereich von Hyperparametern in Ihrem Dataset testen. Sie wählen die optimierbaren Hyperparameter, eine Reihe von Werten für jeden Parameter und eine objektive Metrik aus. Sie wählen die objektive Metrik aus den Metriken aus, die der Algorithmus berechnet. Die automatische Modelloptimierung durchsucht die ausgewählten Hyperparameter nach der Kombination von Werten, die das Modell ergeben, das die objektive Metrik optimiert.

Der Amazon SageMaker Der k-Means-Algorithmus ist ein unbeaufsichtigter Algorithmus, der Daten in Clustern gruppiert, deren Mitglieder so ähnlich wie möglich sind. Da er nicht unüberwacht ist, wird kein Validierungsdataset verwendet, anhand dessen Hyperparameter eine Optimierung vornehmen können. Es wird jedoch ein Testdataset verwendet und Metriken ausgegeben, die von der quadrierten Entfernung zwischen den Datenpunkten und den Schwerpunkten des endgültigen Clusters am Ende jedes Schulungslaufs abhängen. Um das Modell zu finden, das die stärksten Cluster im Testdataset meldet, können Sie einen Hyperparameter-Optimierungsauftrag verwenden. Die Cluster optimieren die Ähnlichkeit ihrer Mitglieder.

Weitere Informationen zu Modelloptimierung finden Sie unter Führen Sie eine automatische Modelloptimierung durch mit SageMaker.

Vom k-Means-Algorithmus berechnete Metriken

Der k-Means-Algorithmus berechnet die folgenden Metriken während der Schulung. Wählen Sie beim Optimieren eines Modells eine dieser Metriken als objektive Metrik aus.

Metrikname Beschreibung Optimierungsrichtung
test:msd

Mittlere quadratische Entfernungen zwischen den einzelnen Datensätzen im Testdataset und dem nächsten Mittelpunkt des Modells.

Minimieren

test:ssd

Summe der quadratischen Entfernungen zwischen den einzelnen Datensätzen im Testdataset und dem nächsten Mittelpunkt des Modells.

Minimieren

Optimierbare k-Means-Hyperparameter

Optimieren Sie Amazon SageMaker k-Means-Modell mit den folgenden Hyperparametern. Die Hyperparameter, die den größten Einfluss auf objektive k-Means-Metriken haben, sind: mini_batch_size, extra_center_factor und init_method. Optimieren des Hyperparameters epochs führt in der Regel zu kleineren Verbesserungen.

Parametername Parametertyp Empfohlene Bereiche
epochs

IntegerParameterRanges

MinValue: 1, MaxValue:10

extra_center_factor

IntegerParameterRanges

MinValue: 4, MaxValue:10

init_method

CategoricalParameterRanges

['kmeans++', 'random']

mini_batch_size

IntegerParameterRanges

MinValue: 3000, MaxValue: 15 000