Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
IP Insights
Amazon SageMaker IP Insights ist ein Algorithmus für unbeaufsichtigtes Lernen, der die Nutzungsmuster für IPv4-Adressen erlernt. Er wurde entwickelt, um Zuordnungen zwischen IPv4-Adressen und verschiedenen Entitys, wie beispielsweise Benutzer-IDs oder Kontonummern, zu erfassen. Sie können ihn z. B. zum Identifizieren eines Benutzers verwenden, der versucht, sich von einer anormalen IP-Adresse bei einem Web-Service anzumelden. Sie können ihn auch verwenden, um ein Konto zu identifizieren, das versucht, Datenverarbeitungsressourcen von einer ungewöhnlichen IP-Adresse aus zu erstellen. Trainierte IP Insight-Modelle können an einem Endpunkt für Echtzeit-Prognosen gehostet oder zum Verarbeiten von Stapeltransformationen verwendet werden.
SageMaker IP Insights erfasst historische Daten als Paare (Entität, IPv4-Adresse) und lernt die IP-Nutzungsmuster jeder Entität kennen. Bei einer Abfrage mit einem (Entität, IPv4-Adresse) -Ereignis wird ein SageMaker Das IP Insights-Modell gibt einen Wert zurück, der darauf schließen lässt, wie anomal das Muster des Ereignisses ist. Wenn ein Benutzer z. B. versucht, sich von einer IP-Adresse anzumelden, und die IP Insights-Punktzahl hoch genug ist, entscheidet ein Web-Login-Server möglicherweise ein Multifaktor-Authentifizierungssystem auszulösen. In erweiterten Lösungen können Sie die IP Insights-Punktzahl in ein anderes Machine Learning-Modell einspeisen. Sie können beispielsweise den IP Insight-Wert mit anderen Funktionen kombinieren, um die Ergebnisse eines anderen Sicherheitssystems einzustufen, z. B. die vonAmazon GuardDuty.
Die SageMaker Der IP Insights-Algorithmus kann auch Vektordarstellungen von IP-Adressen lernen, bekannt alsEinbettungen. Sie können vektorcodierte Einbettungen als Funktionen in nachgelagerten Machine Learning-Aufgaben verwenden, die die in den IP-Adressen erkannten Informationen nutzen. Beispielsweise können Sie sie in Aufgaben wie Messen von Gemeinsamkeiten zwischen IP-Adressen in Cluster- und Visualisierungsaufgaben verwenden.
Themen
E/A-Schnittstelle für den IP Insights-Algorithmus
Training und Validierung
Die SageMaker Der IP Insights-Algorithmus unterstützt Trainings- und Validierungsdatenkanäle. Es verwendet den optionalen Validierungskanal, um eine area-under-curve (AUC) -Score bei einer vordefinierten Strategie für negative Stichproben. Die AUC-Metrik validiert, wie gut das Modell zwischen positiven und negativen Stichproben unterscheidet. Trainings- und Validierungsdaten müssen im text/csv
-Format vorliegen. Die erste Spalte der CSV-Daten besteht aus einer opaken Zeichenfolge, die eine eindeutige ID für die Entity angibt. Die zweite Spalte ist eine IPv4-Adresse in Dezimalpunkt-Notation. IP Insights wird derzeit nur im Dateimodus unterstützt. Weitere Informationen und Beispiele finden Sie unter IP Insights – Datenformate für das Training.
Inferenz
Für die Inferenz unterstützt IP Insights die Eingabedaten-Inhaltstypen text/csv
, application/json
und application/jsonlines
. Weitere Informationen zu gängigen Datenformaten für die von SageMaker bereitgestellte Inferenz finden Sie unter Gängige Datenformate für die Inferenz. Die IP Insights-Inferenz gibt eine als application/json
oder application/jsonlines
formatierte Ausgabe zurück. Jeder Datensatz in den Ausgabedaten enthält das entsprechende dot_product
(oder eine Kompatibilitätspunktzahl) für die einzelnen Eingabedatenpunkte. Weitere Informationen und Beispiele finden Sie unter IP Insights-Inferenzdatenformate.
EC2-Instance-Empfehlung für den IP Insights-Algorithmus
Die SageMaker Der IP Insights-Algorithmus kann auf GPU- und CPU-Instanzen ausgeführt werden. Für Trainingsaufgaben empfehlen wir die Verwendung von GPU-Instances. Für bestimmte Workloads mit großen Trainingsdatasets lassen sich die Trainingskosten möglicherweise durch verteilte CPU-Instances reduzieren. Für die Inferenz empfehlen wir die Verwendung von CPU-Instances. IP Insights unterstützt P2-, P1-, P1-, G4-, G1-, G1-,
GPU-Instances für den IP Insights-Algorithmus
IP Insights unterstützt alle verfügbaren GPUs. Wenn Sie das Training beschleunigen müssen, empfehlen wir mit einer einzigen GPU-Instance, wie z. B. ml.p3.2xlarge, zu beginnen und dann zu einer Multi-GPU-Umgebung, wie ml.p3.8xlarge und ml.p3.16xlarge, überzugehen. Multi-GPUs teilen automatisch kleine Stapel Trainingsdaten unter einander auf. Wenn Sie von einer einzigen GPU auf mehrere GPUs umstellen, wird die mini_batch_size
zu gleichen Teilen auf die Anzahl der verwendeten GPUs aufgeteilt. Als Ausgleich können Sie den Wert der mini_batch_size
erhöhen.
CPU-Instances für den IP Insights-Algorithmus
Welchen Typ der CPU-Instance wir empfehlen, hängt vor allem vom verfügbaren Arbeitsspeicher der Instance und der Modellgröße ab. Die Modellgröße wird durch zwei Hyperparameter bestimmt: vector_dim
und num_entity_vectors
. Die maximale, unterstützte Modellgröße 8 GB. Die folgende Tabelle listet typische EC2-Instance-Typen auf, die Sie auf der Grundlage dieser Eingabeparameter für verschiedene Modellgrößen bereitstellen würden. In Tabelle 1 reicht der Wert für vector_dim
in der ersten Spalte von 32 bis 2048 und die Werte für num_entity_vectors
in der ersten Zeile reichen von 10 000 bis 50 000 000.
vector_dim \
num_entity_vectors . |
10.000 | 50 000 | 100 000 | 500,000 | 1 000 000 | 5,000,000 | 10,000,000 | 50,000,000 |
---|---|---|---|---|---|---|---|---|
32 |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.2xlarge |
ml.m5.4xlarge |
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
ml.m5.2xlarge |
|
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
ml.m5.4xlarge |
|
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.4xlarge |
||
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
|||
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.4xlarge |
|||
|
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.xlarge |
Die Werte für die Hyperparameter mini_batch_size
, num_ip_encoder_layers
, random_negative_sampling_rate
und shuffled_negative_sampling_rate
wirken sich auch auf die Größe des erforderlichen Arbeitsspeichers aus. Wenn diese Werte groß sind, müssen Sie möglicherweise einen größeren Instance-Typ als normal verwenden.
Beispiel-Notebooks für IP Insights
Für ein Beispiel-Notizbuch, das zeigt, wie man das trainiert SageMaker IP Insights-Algorithmus und Rückschlüsse damit durchführen, sieheEine Einführung in die SageMakerIP Insights-Algorithmus