Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
IP Insights-Hyperparameter
In der Anforderung CreateTransformJob
geben Sie den Trainingsalgorithmus an. Sie können auch algorithmusspezifische Hyperparameter als Maps angeben. string-to-string In der folgenden Tabelle sind die Hyperparameter für den Amazon SageMaker IP Insights-Algorithmus aufgeführt.
Name des Parameters | Beschreibung |
---|---|
num_entity_vectors |
Die Anzahl der Entity-Vektordarstellungen (in die Entity einbettenden Vektoren), die trainiert werden sollen. Jede Entity im Trainingsdatensatz wird mithilfe einer Hash-Funktion einem dieser Vektoren nach dem Zufallsprinzip zugeordnet. Aufgrund von Hash-Kollisionen kann es möglich sein, dass mehrere Entitys dem gleichen Vektor zugeordnet werden. Dies würde dazu führen, dass derselbe Vektor mehrerer Entitys darstellt. Dies hat im Allgemeinen unwesentliche Auswirkungen auf die Modellleistung, solange die Kollisionsrate nicht zu hoch ist. Damit die Kollisionsrate niedrig bleibt, legen Sie diesen Wert so hoch wie möglich fest. Die Modellgröße und demzufolge auch der Arbeitsspeicherbedarf werden jedoch mit diesem Hyperparameter sowohl beim Training als auch bei der Inferenz linear skaliert. Wir empfehlen Ihnen, diesen Wert auf die doppelte Anzahl der eindeutigen Entity-IDs festzulegen. Erforderlich Gültige Werte: 1 ≤ positive ganze Zahl ≤ 250.000.000 |
vector_dim |
Die Größe der einbettenden Vektoren zur Darstellung von Entitys und IP-Adressen. Je größer der Wert, desto mehr Informationen, die mit diesen Darstellungen codiert werden können. In der Praxis wird die Modellgröße mit diesem Parameter linear skaliert und sie beschränkt, wie groß die Dimension sein kann. Darüber hinaus kann eine Verwendung von zu großen Vektordarstellungen dazu führen, dass Sie das Modell leicht „überanpassen“, insbesondere für kleine Trainingsdatensätze. Eine Überanpassung tritt auf, wenn ein Modell kein Muster in den Daten erlernt, sich aber die Trainingsdaten effektiv einprägt und daher nicht gut verallgemeinern kann und während der Inferenz eine schlechte Leistung zeigt. Empfohlen wird ein Wert von 128. Erforderlich Gültige Werte: 4 ≤ positive ganze Zahl ≤ 4096 |
batch_metrics_publish_interval |
Das Intervall (alle X Stapel), in dem die Apache MXNet Speedometer-Funktion die Trainingsgeschwindigkeit des Netzwerks (Stichproben/Sekunde) ausgibt. Optional Gültige Werte: positive ganze Zahl ≥ 1 Standardwert: 1,000 |
epochs |
Die Anzahl von Durchläufen der Trainingsdaten. Der optimale Wert hängt von Ihrer Datengröße und Lernrate ab. Typische Werte liegen zwischen 5 und 100. Optional Gültige Werte: positive ganze Zahl ≥ 1 Standardwert: 10 |
learning_rate |
Die Lernrate für den Optimierer. IP Insights verwendet einen gradient-descent-based Adam-Optimierer. Die Lernrate steuert effektiv die Schrittgröße zum Aktualisieren der Modellparameter in jeder Iteration. Eine zu große Lernrate kann dazu führen, dass das Modell abweicht, da das Training wahrscheinlich ein Minimum überschreitet. Andererseits verlangsamt eine zu kleine Lernrate die Konvergenz. Typische Werte liegen zwischen 1e-4 und 1e-1. Optional Gültige Werte: 1e-6 ≤ float ≤ 10.0 Standardwert: 0.001 |
mini_batch_size |
Die Anzahl der Beispiele in jedem Mini-Stapel. Der Trainingsprozess verarbeitet Daten in Mini-Stapeln. Der optimale Wert hängt von der Anzahl der eindeutigen Konto-Kennungen im Datensatz ab. Im Allgemeinen gilt: Je größer der Optional Gültige Werte: 1 ≤ positive ganze Zahl ≤ 500000 Standardwert: 10,000 |
num_ip_encoder_layers |
Die Anzahl der vollständig verbundenen Layer zum Codieren der einzubettenden IP-Adresse. Je größer die Anzahl der Layer, desto größer ist die Kapazität des Modells zur Erfassung von Mustern aus IP-Adressen. Eine große Anzahl von Layern erhöht jedoch das Risiko der Überanpassung. Optional Gültige Werte: 0 ≤ positive ganze Zahl ≤ 100 Standardwert: 1 |
random_negative_sampling_rate |
Die Anzahl der zufälligen negativen Stichproben, R, die pro Eingabebeispiel generiert werden soll. Der Trainingsprozess stützt sich auf negative Stichproben, um zu verhindern, dass die Vektordarstellungen auf einen einzigen Punkt reduziert werden. Zufällige negative Stichproben generieren R zufällige IP-Adressen für jedes Eingabekonto im Mini-Stapel. Die Summe von Optional Gültige Werte: 0 ≤ positive ganze Zahl ≤ 500 Standardwert: 1 |
shuffled_negative_sampling_rate |
Die Anzahl der gemischten negativen Stichproben, S, die pro Eingabebeispiel generiert werden soll. In einigen Fällen ist es hilfreich, realistischere negative Stichproben zu verwenden, die nach dem Zufallsprinzip aus den Trainingsdaten selbst ausgewählt werden. Diese Art von negativen Stichproben wird erreicht, indem die Daten innerhalb eines Mini-Stapels gemischt werden. Gemischte negative Stichproben generieren S negative IP-Adressen, indem die Kopplungen aus IP-Adresse und Konto innerhalb eines Mini-Stapels gemischt werden. Die Summe von Optional Gültige Werte: 0 ≤ positive ganze Zahl ≤ 500 Standardwert: 1 |
weight_decay |
Der Weight-Decay-Koeffizient. Dieser Parameter fügt einen L2-Regularisierungsfaktor hinzu, der erforderlich ist, um zu verhindern, dass das Modell die Trainingsdaten überanpasst. Optional Gültige Werte: 0,0 ≤ float ≤ 10,0 Standardwert: 0.00001 |