So funktioniert IP Insights

Amazon SageMaker AI IP Insights ist ein unbeaufsichtigter Algorithmus, der beobachtete Daten in Form von (Entitäts-, IPv4 Adress-) Paaren verwendet, die Entitäten IP-Adressen zuordnen. IP Insights bestimmt, wie wahrscheinlich es ist, dass eine Entity eine bestimmte IP-Adresse verwendet, indem latente Vektordarstellungen sowohl für Entitys als auch IP-Adressen erlernt werden. Der Abstand zwischen diesen beiden Darstellungen kann dann als Proxy dazu dienen, wie wahrscheinlich diese Zuordnung ist.

Der IP Insights-Algorithmus verwendet ein neuronales Netzwerk, um die latenten Vektordarstellungen für Entitys und IP-Adressen zu lernen. Entitys werden zuerst an einem großen, aber festen Hash-Speicherplatz gehasht und anschließend mit einer einfachen Einbettungsebene codiert. Zeichenketten wie Benutzernamen oder Konten IDs können direkt in IP Insights eingegeben werden, da sie in Protokolldateien erscheinen. Sie müssen die Daten für die Entity-IDs nicht vorverarbeiten. Sie können Entitys als beliebigen Zeichenfolgenwert sowohl während des Trainings als auch der Inferenz bereitstellen. Die Hash-Größe sollte mit einem Wert konfiguriert werden, der hoch genug ist, um sicherzustellen, dass die Anzahl der Kollisionen, die auftreten, wenn verschiedene Entitäten auf denselben latenten Vektor abgebildet werden, unbedeutend bleibt. Weitere Informationen zum Auswählen geeigneter Hash-Größen finden Sie unter Feature Hashing for Large Scale Multitask Learning. Für die Darstellung von IP-Adressen verwendet IP Insights dagegen ein speziell entwickeltes Encoder-Netzwerk, um jede mögliche IPv4 Adresse eindeutig darzustellen, indem die Präfixstruktur von IP-Adressen ausgenutzt wird.

Während des Trainings generiert IP Insights automatisch negative Stichproben, indem Entitys und IP-Adressen nach dem Zufallsprinzip gekoppelt werden. Diese negativen Stichproben stehen für Daten, deren Auftreten in Wirklichkeit weniger wahrscheinlich ist. Das Modell ist zur Unterscheidung zwischen den positiven Stichproben, die in den Trainingsdaten erkannt werden, und diesen negativen Stichproben trainiert. Genauer gesagt wird das Modell trainiert, die Kreuz-Entropie, auch als Protokollverlust bezeichnet, zu minimieren, die wie folgt definiert ist:

Eine Abbildung mit der Gleichung für den Protokollverlust.

y_n ist die Bezeichnung, die angibt, ob die Stichprobe aus der realen Verteilung der beobachteten Daten (y_n=1) oder aus der Verteilung stammt, die negative Stichproben erzeugt (y_n=0). p_n ist die Wahrscheinlichkeit, dass die Stichprobe aus der realen Verteilung stammt, wie sie vom Modell vorhergesagt wurde.

Das Generieren von negativen Stichproben ist ein wichtiger Prozess, der verwendet wird, um ein präzises Modell der beobachteten Daten zu erreichen. Wenn negative Stichproben äußerst unwahrscheinlich sind, z. B., wenn alle IP-Adressen in negativen Stichproben 10.0.0.0 lauten, dann lernt das Modell trivial, negative Stichproben zu unterscheiden, und kann die Merkmale des tatsächlich beobachteten Datsatzes nicht präzise angeben. Um negative Stichproben realistischer zu gestalten, generiert IP Insights negative Stichproben sowohl durch zufälliges Generieren von IP-Adressen als auch durch zufälliges Auswählen von IP-Adressen aus den Trainingsdaten. Sie können die Art der negativen Stichprobenerhebung und die Raten, mit denen negative Stichproben generiert werden, mit den Hyperparametern random_negative_sampling_rate und shuffled_negative_sampling_rate konfigurieren.

Bei einem n-ten Paar (Entität, IP-Adresse) gibt das IP Insights-Modell ein Ergebnis, S_n aus, welches angibt, wie kompatibel die Entität mit der IP-Adresse ist. Diese Punktzahl entspricht dem Log Odds Ratio (logarithmiertes Chancenverhältnis) für ein bestimmtes Paar (Entity, IP-Adresse), das aus einer realen Verteilung stammt, im Vergleich zu einem Paar aus einer negativen Verteilung. Sie wird wie folgt definiert:

Eine Abbildung mit der Gleichung für die Punktzahl, ein Log Odds Ratio (logarithmiertes Chancenverhältnis).

Die Punktzahl ist im Wesentlichen ein Maß für die Ähnlichkeit der Vektordarstellungen der n-ten Entity und IP-Adresse. Sie erlaubt eine Interpretation, wie wahrscheinlicher es ist, dieses Ereignis in Wirklichkeit zu beobachten, als in einem nach dem Zufallsprinzip generierten Datensatz. Während des Trainings verwendet der Algorithmus dieses Ergebnis, um eine Schätzung der Wahrscheinlichkeit zu berechnen, dass eine Stichprobe aus der realen Verteilung stammt, p_n, um sie bei der Kreuzentropieminimierung zu verwenden, wobei:

Eine Abbildung, das die Gleichung für die Wahrscheinlichkeit zeigt, dass die Stichprobe aus einer realen Verteilung stammt.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

IP Insights

Hyperparameter