Optimieren eines k-Means-Modells - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Optimieren eines k-Means-Modells

Die automatische Modelloptimierung, auch bekannt als Hyperparameteroptimierung, sucht die beste Version eines Modells, indem viele Aufträge ausgeführt werden, die einen Bereich von Hyperparametern in Ihrem Datensatz testen. Sie wählen die optimierbaren Hyperparameter, eine Reihe von Werten für jeden Parameter und eine objektive Metrik aus. Sie wählen die objektive Metrik aus den Metriken aus, die der Algorithmus berechnet. Die automatische Modelloptimierung durchsucht die ausgewählten Hyperparameter nach der Kombination von Werten, die das Modell ergeben, das die objektive Metrik optimiert.

Der Amazon SageMaker K-Means-Algorithmus ist ein unbeaufsichtigter Algorithmus, der Daten in Clustern gruppiert, deren Mitglieder sich so ähnlich wie möglich sind. Da er nicht überwacht ist, wird kein Validierungsdatensatz verwendet, anhand dessen Hyperparameter eine Optimierung vornehmen können. Es wird jedoch ein Testdatensatz verwendet und Metriken ausgegeben, die von der quadrierten Entfernung zwischen den Datenpunkten und den Schwerpunkten des endgültigen Clusters am Ende jedes Trainingslaufs abhängen. Um das Modell zu finden, das die stärksten Cluster im Testdatensatz meldet, können Sie einen Hyperparameter-Optimierungsauftrag verwenden. Die Cluster optimieren die Ähnlichkeit ihrer Mitglieder.

Mehr Informationen über die Modelloptimierung finden Sie unter Automatische Modelloptimierung mit SageMaker.

Vom k-Means-Algorithmus berechnete Metriken

Der k-Means-Algorithmus berechnet die folgenden Metriken während des Trainings. Wählen Sie beim Optimieren eines Modells eine dieser Metriken als objektive Metrik aus.

Metrikname Beschreibung Optimierungsrichtung
test:msd

Mittlere quadratische Entfernungen zwischen den einzelnen Datensätzen im Testdatensatz und dem nächsten Mittelpunkt des Modells.

Minimieren

test:ssd

Summe der quadratischen Entfernungen zwischen den einzelnen Datensätzen im Testdatensatz und dem nächsten Mittelpunkt des Modells.

Minimieren

Optimierbare k-Means-Hyperparameter

Optimieren Sie das Amazon SageMaker K-Means-Modell mit den folgenden Hyperparametern. Die Hyperparameter, die den größten Einfluss auf objektive k-Means-Metriken haben, sind: mini_batch_size, extra_center_factor und init_method. Optimieren des Hyperparameters epochs führt in der Regel zu kleineren Verbesserungen.

Name des Parameters Parametertyp Empfohlene Bereiche
epochs

IntegerParameterBereiche

MinValue: 1, :10 MaxValue

extra_center_factor

IntegerParameterBereiche

MinValue: 4, :10 MaxValue

init_method

CategoricalParameterBereiche

['kmeans++', 'random']

mini_batch_size

IntegerParameterReichweiten

MinValue: 3000 MaxValue ,:15000