Interfaccia di input/output per l'algoritmo IP Insights EC2 Istanza consigliata per l'algoritmo IP Insights Notebook di esempio

IP Insights

Amazon SageMaker AI IP Insights è un algoritmo di apprendimento senza supervisione che apprende i modelli di utilizzo degli indirizzi. IPv4 È progettato per acquisire associazioni tra IPv4 indirizzi e varie entità, come numeri di utente IDs o account. Puoi ad esempio utilizzarlo per identificare un utente che tenta di accedere a un servizio Web da un indirizzo IP anomalo oppure puoi usarlo per identificare un account che sta tentando di creare risorse di calcolo da un indirizzo IP insolito. I modelli IP Insight possono essere ospitati in un endpoint per effettuare previsioni in tempo reale o essere utilizzati per l'elaborazione di trasformazioni in batch.

SageMaker AI IP Insights acquisisce i dati storici come coppie (entità, IPv4 indirizzo) e apprende i modelli di utilizzo dell'IP di ciascuna entità. Quando viene interrogato con un evento (entità, IPv4 indirizzo), un modello SageMaker AI IP Insights restituisce un punteggio che deduce quanto sia anomalo il modello dell'evento. Ad esempio, quando un utente tenta di accedere da un indirizzo IP, se il punteggio di IP Insights è sufficientemente alto, un server di accesso Web può decidere di attivare un sistema di autenticazione a più fattori. Nelle soluzioni più avanzate, puoi includere il punteggio di IP Insights in un altro modello di Machine Learning. Ad esempio, puoi combinare il punteggio IP Insight con altre funzionalità per classificare i risultati di un altro sistema di sicurezza, come quelli di Amazon GuardDuty.

L'algoritmo SageMaker AI IP Insights può anche apprendere le rappresentazioni vettoriali degli indirizzi IP, note come incorporamenti. Puoi utilizzare gli incorporamenti con codifica vettoriale come caratteristiche nelle attività di Machine Learning downstream che utilizzano le informazioni osservate negli indirizzi IP. Ad esempio, è possibile utilizzarli in attività quali la valutazione delle somiglianze tra gli indirizzi IP nelle attività di visualizzazione e cluster.

Argomenti

Interfaccia di input/output per l'algoritmo IP Insights

Addestramento e convalida

L'algoritmo SageMaker AI IP Insights supporta i canali di dati di addestramento e convalida. Utilizza il canale di convalida opzionale per calcolare un punteggio area-under-curve (AUC) su una strategia di campionamento negativo predefinita. Il parametro AUC convalida il modo in cui il modello distingue gli esempi positivi e negativi. I tipi di contenuto dei dati di addestramento e convalida devono essere nel formato text/csv. La prima colonna dei dati CSV è una stringa opaca che fornisce un identificatore univoco per l'entità. La seconda colonna è un IPv4 indirizzo in notazione decimale. IP Insights attualmente supporta solo la modalità File. Per maggiori informazioni ed esempi, consulta Formati di dati di addestramento Insights IP.

Inferenza

Per inferenza, l'algoritmo IP Insights supporta i tipi di contenuti di dati text/csv, application/json e application/jsonlines. Per ulteriori informazioni sui formati di dati comuni per l'inferenza forniti dall'IA, vedere. SageMaker Formati di dati comuni per l'inferenza L'inferenza di IP Insights restituisce l'output formattato come application/json o application/jsonlines. Ogni record nei dati di output contiene il dot_product (punteggio di compatibilità) corrispondente per ogni punto di dati di input. Per maggiori informazioni ed esempi, consulta Formati di dati di inferenza di IP Insights.

EC2 Istanza consigliata per l'algoritmo IP Insights

L'algoritmo SageMaker AI IP Insights può essere eseguito sia su istanze GPU che CPU. Per i processi di addestramento, consigliamo di utilizzare le istanze GPU. Tuttavia, per determinati carichi di lavoro con set di dati di addestramento di grandi dimensioni, le istanze CPU distribuite potrebbero ridurre i costi di addestramento. Per l'inferenza, consigliamo di utilizzare le istanze CPU. IP Insights supporta le famiglie di GPU P2, P3, G4dn e G5.

Istanze GPU per l'algoritmo IP Insights

IP Insights supporta tutte le versioni disponibili. GPUs Se è necessario velocizzare l’addestramento, consigliamo di iniziare con una singola istanza GPU, ad esempio ml.p3.2xlarge, e quindi di passare a un ambiente con più GPU, come ml.p3.8xlarge e ml.p3.16xlarge. Suddividi GPUs automaticamente i mini batch di dati di allenamento tra loro. Se si passa da una singola GPU a più GPU GPUs, questa mini_batch_size viene divisa equamente per il numero di GPU utilizzate. GPUs Puoi aumentare il valore del mini_batch_size per compensare.

Istanze CPU per l'algoritmo IP Insights

Il tipo di istanza CPU che consigliamo dipende in gran parte dalla memoria disponibile dell'istanza e dalla dimensione del modello. La dimensione del modello è determinata da due iperparametri: vector_dim e num_entity_vectors. La dimensione massima del modello supportata è 8 GB. La tabella seguente elenca i tipi di EC2 istanza tipici che è possibile distribuire in base a questi parametri di input per modelli di varie dimensioni. Nella tabella 1, il valore per vector_dim nell'intervallo della prima colonna compreso tra 32 e 2048 e i valori per num_entity_vectors nell'intervallo della prima riga compreso tra 10.000 e 50.000.000.

`vector_dim` \ `num_entity_vectors`.	10.000	50.000	100.000	500.000	1.000.000	5.000.000	10.000.000	50.000.000
`32`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.2xlarge`	`ml.m5.4xlarge`
`64`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.2xlarge`	`ml.m5.2xlarge`
`128`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.2xlarge`	`ml.m5.4xlarge`
`256`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.4xlarge`
`512`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.2xlarge`
`1024`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.4xlarge`
`2048`	ml.m5.large	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.xlarge`

I valori degli iperparametri mini_batch_size, num_ip_encoder_layers, random_negative_sampling_rate e shuffled_negative_sampling_rate influisce anche sulla quantità di memoria richiesta. Se questi valori sono elevati, potrebbe essere necessario utilizzare un tipo di istanza più grande del normale.

Notebook di esempio di IP Insights

Per un taccuino di esempio che mostra come addestrare l'algoritmo SageMaker AI IP Insights ed eseguire inferenze con esso, vedi Introduzione all'algoritmo SageMaker AIIP Insights. Per istruzioni su come creare e accedere alle istanze di notebook Jupyter da utilizzare per eseguire l'esempio in AI, consulta. SageMaker Istanze SageMaker per notebook Amazon Dopo aver creato un'istanza di notebook, scegli la scheda Esempi SageMaker AI per visualizzare un elenco di tutti gli esempi di IA. SageMaker Per aprire un notebook, seleziona la relativa scheda Utilizza e scegli Crea copia.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Non supervisionato

Come funziona