IP Insights-Hyperparameter - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

IP Insights-Hyperparameter

In der Anforderung CreateTransformJob geben Sie den Trainingsalgorithmus an. Sie können auch algorithmusspezifische Hyperparameter als Maps angeben. string-to-string In der folgenden Tabelle sind die Hyperparameter für den Amazon SageMaker IP Insights-Algorithmus aufgeführt.

Name des Parameters Beschreibung
num_entity_vectors

Die Anzahl der Entity-Vektordarstellungen (in die Entity einbettenden Vektoren), die trainiert werden sollen. Jede Entity im Trainingsdatensatz wird mithilfe einer Hash-Funktion einem dieser Vektoren nach dem Zufallsprinzip zugeordnet. Aufgrund von Hash-Kollisionen kann es möglich sein, dass mehrere Entitys dem gleichen Vektor zugeordnet werden. Dies würde dazu führen, dass derselbe Vektor mehrerer Entitys darstellt. Dies hat im Allgemeinen unwesentliche Auswirkungen auf die Modellleistung, solange die Kollisionsrate nicht zu hoch ist. Damit die Kollisionsrate niedrig bleibt, legen Sie diesen Wert so hoch wie möglich fest. Die Modellgröße und demzufolge auch der Arbeitsspeicherbedarf werden jedoch mit diesem Hyperparameter sowohl beim Training als auch bei der Inferenz linear skaliert. Wir empfehlen Ihnen, diesen Wert auf die doppelte Anzahl der eindeutigen Entity-IDs festzulegen.

Erforderlich

Gültige Werte: 1 ≤ positive ganze Zahl ≤ 250.000.000

vector_dim

Die Größe der einbettenden Vektoren zur Darstellung von Entitys und IP-Adressen. Je größer der Wert, desto mehr Informationen, die mit diesen Darstellungen codiert werden können. In der Praxis wird die Modellgröße mit diesem Parameter linear skaliert und sie beschränkt, wie groß die Dimension sein kann. Darüber hinaus kann eine Verwendung von zu großen Vektordarstellungen dazu führen, dass Sie das Modell leicht „überanpassen“, insbesondere für kleine Trainingsdatensätze. Eine Überanpassung tritt auf, wenn ein Modell kein Muster in den Daten erlernt, sich aber die Trainingsdaten effektiv einprägt und daher nicht gut verallgemeinern kann und während der Inferenz eine schlechte Leistung zeigt. Empfohlen wird ein Wert von 128.

Erforderlich

Gültige Werte: 4 ≤ positive ganze Zahl ≤ 4096

batch_metrics_publish_interval

Das Intervall (alle X Stapel), in dem die Apache MXNet Speedometer-Funktion die Trainingsgeschwindigkeit des Netzwerks (Stichproben/Sekunde) ausgibt.

Optional

Gültige Werte: positive ganze Zahl ≥ 1

Standardwert: 1,000

epochs

Die Anzahl von Durchläufen der Trainingsdaten. Der optimale Wert hängt von Ihrer Datengröße und Lernrate ab. Typische Werte liegen zwischen 5 und 100.

Optional

Gültige Werte: positive ganze Zahl ≥ 1

Standardwert: 10

learning_rate

Die Lernrate für den Optimierer. IP Insights verwendet einen gradient-descent-based Adam-Optimierer. Die Lernrate steuert effektiv die Schrittgröße zum Aktualisieren der Modellparameter in jeder Iteration. Eine zu große Lernrate kann dazu führen, dass das Modell abweicht, da das Training wahrscheinlich ein Minimum überschreitet. Andererseits verlangsamt eine zu kleine Lernrate die Konvergenz. Typische Werte liegen zwischen 1e-4 und 1e-1.

Optional

Gültige Werte: 1e-6 ≤ float ≤ 10.0

Standardwert: 0.001

mini_batch_size

Die Anzahl der Beispiele in jedem Mini-Stapel. Der Trainingsprozess verarbeitet Daten in Mini-Stapeln. Der optimale Wert hängt von der Anzahl der eindeutigen Konto-Kennungen im Datensatz ab. Im Allgemeinen gilt: Je größer dermini_batch_size, desto schneller das Training und desto größer die Anzahl der möglichen shuffled-negative-sample Kombinationen. Mit einem großen Wert für mini_batch_size konvergiert das Training mit größerer Wahrscheinlichkeit zu einem schlechten lokalen Minimum und zeigt relativ gesehen eine noch schlechtere Leistung für die Inferenz.

Optional

Gültige Werte: 1 ≤ positive ganze Zahl ≤ 500000

Standardwert: 10,000

num_ip_encoder_layers

Die Anzahl der vollständig verbundenen Layer zum Codieren der einzubettenden IP-Adresse. Je größer die Anzahl der Layer, desto größer ist die Kapazität des Modells zur Erfassung von Mustern aus IP-Adressen. Eine große Anzahl von Layern erhöht jedoch das Risiko der Überanpassung.

Optional

Gültige Werte: 0 ≤ positive ganze Zahl ≤ 100

Standardwert: 1

random_negative_sampling_rate

Die Anzahl der zufälligen negativen Stichproben, R, die pro Eingabebeispiel generiert werden soll. Der Trainingsprozess stützt sich auf negative Stichproben, um zu verhindern, dass die Vektordarstellungen auf einen einzigen Punkt reduziert werden. Zufällige negative Stichproben generieren R zufällige IP-Adressen für jedes Eingabekonto im Mini-Stapel. Die Summe von random_negative_sampling_rate (R) and shuffled_negative_sampling_rate (S) muss im Intervall: 1 ≤ R + S ≤ 500 liegen.

Optional

Gültige Werte: 0 ≤ positive ganze Zahl ≤ 500

Standardwert: 1

shuffled_negative_sampling_rate

Die Anzahl der gemischten negativen Stichproben, S, die pro Eingabebeispiel generiert werden soll. In einigen Fällen ist es hilfreich, realistischere negative Stichproben zu verwenden, die nach dem Zufallsprinzip aus den Trainingsdaten selbst ausgewählt werden. Diese Art von negativen Stichproben wird erreicht, indem die Daten innerhalb eines Mini-Stapels gemischt werden. Gemischte negative Stichproben generieren S negative IP-Adressen, indem die Kopplungen aus IP-Adresse und Konto innerhalb eines Mini-Stapels gemischt werden. Die Summe von random_negative_sampling_rate (R) and shuffled_negative_sampling_rate (S) muss im Intervall: 1 ≤ R + S ≤ 500 liegen.

Optional

Gültige Werte: 0 ≤ positive ganze Zahl ≤ 500

Standardwert: 1

weight_decay

Der Weight-Decay-Koeffizient. Dieser Parameter fügt einen L2-Regularisierungsfaktor hinzu, der erforderlich ist, um zu verhindern, dass das Modell die Trainingsdaten überanpasst.

Optional

Gültige Werte: 0,0 ≤ float ≤ 10,0

Standardwert: 0.00001