IP Insights-Hyperparameter - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

IP Insights-Hyperparameter

In der Anforderung CreateTransformJob geben Sie den Schulungsalgorithmus an. Algorithmus-spezifische Hyperparameter können Sie auch angeben als string-to-string Übersichten. In der folgenden Tabelle werden die Hyperparameter für Amazon aufgeführt. SageMaker IP Insights-Algorithmus

Parametername Beschreibung
num_entity_vectors

Die Anzahl der Entity-Vektordarstellungen (in die Entity einbettenden Vektoren), die trainiert werden sollen. Jede Entity im Trainingdataset wird mithilfe einer Hash-Funktion einem dieser Vektoren nach dem Zufallsprinzip zugeordnet. Aufgrund von Hash-Kollisionen kann es möglich sein, dass mehrere Entitys dem gleichen Vektor zugeordnet werden. Dies würde dazu führen, dass derselbe Vektor mehrerer Entitys darstellt. Dies hat im Allgemeinen unwesentliche Auswirkungen auf die Modellleistung, solange die Kollisionsrate nicht zu hoch ist. Damit die Kollisionsrate niedrig bleibt, legen Sie diesen Wert so hoch wie möglich fest. Die Modellgröße und demzufolge auch der Arbeitsspeicherbedarf werden jedoch mit diesem Hyperparameter sowohl beim Training als auch bei der Inferenz linear skaliert. Wir empfehlen Ihnen, diesen Wert auf die doppelte Anzahl der eindeutigen Entity-IDs festzulegen.

Erforderlich

Gültige Werte: 1 ≤ positive Ganzzahl ≤ 250.000.000

vector_dim

Die Größe der einbettenden Vektoren zur Darstellung von Entitys und IP-Adressen. Je größer der Wert, desto mehr Informationen, die mit diesen Darstellungen codiert werden können. In der Praxis wird die Modellgröße mit diesem Parameter linear skaliert und sie beschränkt, wie groß die Dimension sein kann. Darüber hinaus kann eine Verwendung von zu großen Vektordarstellungen dazu führen, dass Sie das Modell leicht "überanpassen", insbesondere für kleine Trainingsdatasets. Eine Überanpassung tritt auf, wenn ein Modell kein Muster in den Daten erlernt, sich aber die Trainingsdaten effektiv einprägt und daher nicht gut verallgemeinern kann und während der Inferenz eine schlechte Leistung zeigt. Empfohlen wird ein Wert von 128.

Erforderlich

Gültige Werte: 4 ≤ positive Ganzzahl ≤ 4096

batch_metrics_publish_interval

Das Intervall (alle X Stapel), in dem die Apache MXNet Speedometer-Funktion die Trainingsgeschwindigkeit des Netzwerks (Stichproben/Sekunde) ausgibt.

Optional

Gültige Werte: positive Ganzzahl ≥ 1

Standardwert: 1.000

epochs

Die Anzahl von Durchläufen der Trainingsdaten. Der optimale Wert hängt von Ihrer Datenmenge und Lernrate ab. Typische Werte liegen zwischen 5 und 100.

Optional

Gültige Werte: positive Ganzzahl ≥ 1

Standardwert: 10

learning_rate

Die Lernrate für den Optimierer. IP Insights verwenden eine gradient-descent-based Adam Optimierer Die Lernrate steuert effektiv die Schrittgröße zum Aktualisieren der Modellparameter in jeder Iteration. Eine zu große Lernrate kann dazu führen, dass das Modell abweicht, da das Training wahrscheinlich ein Minimum überschreitet. Andererseits verlangsamt eine zu kleine Lernrate die Konvergenz. Typische Werte liegen zwischen 1e-4 und 1e-1.

Optional

Gültige Werte: 1e-6 ≤ float ≤ 10,0

Standardwert: 0.001

mini_batch_size

Die Anzahl der Beispiele in jedem Mini-Stapel. Der Trainingsprozess verarbeitet Daten in Mini-Stapeln. Der optimale Wert hängt von der Anzahl der eindeutigen Konto-Kennungen im Dataset ab. Im Allgemeinen gilt: Je größer dermini_batch_size, je schneller das Training und desto größer die Anzahl der möglichen shuffled-negative-sample Kombinationen. Mit einem großen Wert für mini_batch_size konvergiert das Training mit größerer Wahrscheinlichkeit zu einem schlechten lokalen Minimum und zeigt relativ gesehen eine noch schlechtere Leistung für die Inferenz.

Optional

Zulässige Werte: 1 ≤ positive Ganzzahl

Standardwert: 10.000

num_ip_encoder_layers

Die Anzahl der vollständig verbundenen Layer zum Codieren der einzubettenden IP-Adresse. Je größer die Anzahl der Layer, desto größer ist die Kapazität des Modells zur Erfassung von Mustern aus IP-Adressen. Eine große Anzahl von Layern erhöht jedoch das Risiko der Überanpassung.

Optional

Zulässige Werte: 0 ≤ positive Ganzzahl ≤ 0

Standardwert: 1

random_negative_sampling_rate

Die Anzahl der zufälligen negativen Stichproben, R, die pro Eingabebeispiel generiert werden soll. Der Trainingsprozess stützt sich auf negative Stichproben, um zu verhindern, dass die Vektordarstellungen auf einen einzigen Punkt reduziert werden. Zufällige negative Stichproben generieren R zufällige IP-Adressen für jedes Eingabekonto im Mini-Stapel. Die Summe derrandom_negative_sampling_rate(R) undshuffled_negative_sampling_rate(S) muss im Intervall liegen: 1 ≤ R + S ≤ 500.

Optional

Zulässige Werte: 0 ≤ positive Ganzzahl ≤ 0

Standardwert: 1

shuffled_negative_sampling_rate

Die Anzahl der gemischten negativen Stichproben, S, die pro Eingabebeispiel generiert werden soll. In einigen Fällen ist es hilfreich, realistischere negative Stichproben zu verwenden, die nach dem Zufallsprinzip aus den Trainingsdaten selbst ausgewählt werden. Diese Art von negativen Stichproben wird erreicht, indem die Daten innerhalb eines Mini-Stapels gemischt werden. Gemischte negative Stichproben generieren S negative IP-Adressen, indem die Kopplungen aus IP-Adresse und Konto innerhalb eines Mini-Stapels gemischt werden. Die Summe derrandom_negative_sampling_rate(R) undshuffled_negative_sampling_rate(S) muss im Intervall liegen: 1 ≤ R + S ≤ 500.

Optional

Zulässige Werte: 0 ≤ positive Ganzzahl ≤ 0

Standardwert: 1

weight_decay

Der Weight-Decay-Koeffizient. Dieser Parameter fügt einen L2-Regularisierungsfaktor hinzu, der erforderlich ist, um zu verhindern, dass das Modell die Trainingsdaten überanpasst.

Optional

Gültige Werte: 0,0 ≤ float ≤ 10,0

Standardwert: 0,00001