Interfaz de entrada/salida para el algoritmo Información IP EC2 Recomendación de instancia para el algoritmo IP Insights Cuadernos de ejemplo

Información de IP

Amazon SageMaker AI IP Insights es un algoritmo de aprendizaje no supervisado que aprende los patrones de uso de las IPv4 direcciones. Está diseñado para capturar asociaciones entre IPv4 direcciones y diversas entidades, como números de usuario IDs o de cuenta. Puede utilizarlo para identificar a un usuario que intenta iniciar sesión en un servicio web desde una dirección IP anómala, por ejemplo. O bien, puede utilizarlo para identificar una cuenta que está intentando crear recursos informáticos desde una dirección IP inusual. Los modelos de información IP entrenados se pueden alojar en un punto de enlace para realizar predicciones en tiempo real o se pueden utilizar para procesar transformaciones por lotes.

SageMaker AI IP Insights recopila los datos históricos en pares (entidad, IPv4 dirección) y aprende los patrones de uso de IP de cada entidad. Cuando se consulta con un evento (entidad, IPv4 dirección), un modelo de SageMaker AI IP Insights devuelve una puntuación que deduce qué tan anómalo es el patrón del evento. Por ejemplo, cuando un usuario intenta iniciar sesión desde una dirección IP, si la puntuación de Información IP es lo suficientemente alta, un servidor de inicio de sesión web podría decidir activar un sistema de Multi-Factor Authentication. En las soluciones más avanzadas, puede enviar la puntuación de Información IP a otro modelo de machine learning. Por ejemplo, puede combinar la puntuación IP Insight con otras funciones para clasificar los resultados de otro sistema de seguridad, como los de Amazon GuardDuty.

El algoritmo SageMaker AI IP Insights también puede aprender representaciones vectoriales de direcciones IP, conocidas como incrustaciones. Puede utilizar incrustaciones con codificación del vector como características en tareas de machine learning posteriores que usan la información observada en las direcciones IP. Por ejemplo, puede utilizarlas en tareas como medir similitudes entre las direcciones IP en tareas de clustering y visualización.

Temas

Interfaz de entrada/salida para el algoritmo Información IP

Entrenamiento y validación

El algoritmo SageMaker AI IP Insights admite los canales de datos de entrenamiento y validación. Utiliza el canal de validación opcional para calcular una puntuación area-under-curve (AUC) en una estrategia de muestreo negativo predefinida. La métrica AUC valida la eficacia del modelo para discriminar entre muestras positivas y negativas. Los tipos de contenido de datos de capacitación y validación tienen que estar en formato text/csv. La primera columna de los datos CSV es una cadena opaca que proporciona un identificador único para la entidad. La segunda columna es una IPv4 dirección en notación de puntos decimales. Información IP actualmente solo admite el modo de Archivo. Para obtener más información y ejemplos, consulte Formatos de datos de capacitación de Información IP.

Inferencia

Para inferencia, Información IP admite los tipos de contenido de datos text/csv, application/json y application/jsonlines. Para obtener más información sobre los formatos de datos comunes para la inferencia proporcionados por SageMaker la IA, consulte. Formatos de datos comunes para la inferencia La inferencia de Información IP devuelve un resultado con formato application/json o application/jsonlines. Cada uno de los registros de los datos de salida contienen las correspondientes dot_product (o puntuación de compatibilidad) para cada punto de datos de entrada. Para obtener más información y ejemplos, consulte Formatos de datos de inferencia de Información IP.

EC2 Recomendación de instancia para el algoritmo IP Insights

El algoritmo SageMaker AI IP Insights puede ejecutarse tanto en instancias de GPU como de CPU. Para trabajos de capacitación, le recomendamos que utilice las instancias de GPU. Sin embargo, para determinadas cargas de trabajo con grandes conjuntos de datos de capacitación, las instancias de CPU distribuidas podrían reducir los costos de capacitación. Se recomiendan las instancias de CPU para inferencia. IP Insights es compatible con las familias de GPU P2, P3, G4dn y G5.

Instancias GPU para el algoritmo de Información IP

IP Insights es compatible con todas las disponibles GPUs. Si necesita acelerar la capacitación, le recomendamos que comience con una sola instancia de GPU, como ml.p3.2xlarge y, a continuación, cambiar a un entorno multi-GPU, como ml.p3.8xlarge y ml.p3.16xlarge. Divida GPUs automáticamente los minilotes de datos de entrenamiento entre sí. Si cambias de una sola GPU a varias GPUs, mini_batch_size se divide en partes iguales entre el número de unidades GPUs utilizadas. Es posible que desee aumentar el valor del mini_batch_size para compensarlo.

Instancias CPU para el algoritmo Información IP

El tipo de instancia de CPU que le recomendamos depende en gran medida de la memoria disponible de la instancia y el tamaño del modelo. El tamaño del modelo se determina en función de dos hiperparámetros: vector_dim y num_entity_vectors. El tamaño de modelo máximo soportado es 8 GB. En la siguiente tabla, se enumeran los tipos de EC2 instancias habituales que se implementarían en función de estos parámetros de entrada para distintos tamaños de modelo. En la tabla 1, el valor de vector_dim en la primera columna va desde 32 hasta 2048 y los valores de num_entity_vectors en la primera fila, de 10 000 a 50 000 000.

`vector_dim` \ `num_entity_vectors`.	10 000	50 000	100 000	500 000	1 000 000	5,000,000	10 000 000	50,000,000
`32`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.2xlarge`	`ml.m5.4xlarge`
`64`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.2xlarge`	`ml.m5.2xlarge`
`128`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.2xlarge`	`ml.m5.4xlarge`
`256`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.4xlarge`
`512`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.2xlarge`
`1024`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.4xlarge`
`2048`	ml.m5.large	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.xlarge`

Los valores de los hiperparámetros mini_batch_size, num_ip_encoder_layers, random_negative_sampling_rate y shuffled_negative_sampling_rate afectan a la cantidad de memoria necesaria. Si estos valores son altos, es posible que necesite utilizar un tipo de instancia mayor de lo habitual.

Cuadernos de ejemplo de Información IP

Para ver un ejemplo de cuaderno que muestra cómo entrenar el algoritmo SageMaker AI IP Insights y realizar inferencias con él, consulta Introducción al algoritmo SageMaker AIIP Insights. Para obtener instrucciones sobre cómo crear instancias de Jupyter Notebook y acceder a ellas, que puede utilizar para ejecutar el ejemplo en SageMaker IA, consulte. Instancias de Amazon SageMaker Notebook Tras crear una instancia de bloc de notas, selecciona la pestaña Ejemplos de SageMaker IA para ver una lista de todos los ejemplos de SageMaker IA. Para abrir un bloc de notas, elija su pestaña Usar y elija Crear copia.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Sin supervisión

Cómo funciona