Hiperparámetros de Información IP - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Hiperparámetros de Información IP

En la solicitud CreateTransformJob, especifique el algoritmo de capacitación. También puede especificar hiperparámetros específicos del algoritmo en forma de mapas. string-to-string En la siguiente tabla se enumeran los hiperparámetros del algoritmo Amazon SageMaker IP Insights.

Nombre del parámetro Descripción
num_entity_vectors

El número de representaciones vectoriales de entidad (vectores de integración de entidad) a capacitar. Cada entidad del conjunto de capacitación se asigna de manera aleatoria a una de estos vectores mediante una función hash. Debido a las colisiones hash, es posible tener varias entidades asignadas al mismo vector. Esto podría hacer que el mismo vector represente varias entidades. Esto, por lo general, tiene una incidencia insignificante sobre el rendimiento del modelo, en la medida en que la tasa de colisión no sea demasiado grave. Para mantener la tasa de colisión baja, defina este valor tan alto como sea posible. Sin embargo, el tamaño del modelo y, por lo tanto, el requisito de memoria, tanto para la capacitación como para la inferencia, escala linealmente con este hiperparámetro. Le recomendamos que establezca este valor en el doble del número de identificadores de entidad únicos.

Obligatorio

Valores válidos: 1 ≤ entero positivo ≤ 250 000 000

vector_dim

El tamaño de vectores de integración para representar entidades y direcciones IP. Cuanto más elevado sea el valor, más información se puede codificar mediante estas representaciones. En la práctica, el tamaño del modelo aumenta de forma lineal con este parámetro y limita el tamaño de la dimensión. Además, el uso de representaciones vectoriales que son demasiado grandes puede provocar que el modelo sea excesivo, especialmente para conjuntos de datos de capacitación pequeños. El sobreajuste se produce cuando un modelo no aprende ningún patrón en los datos sino que memoriza de manera eficaz los datos de capacitación y, por lo tanto, no puede generalizar bien y presenta un rendimiento deficiente durante la inferencia. El valor recomendado es 128.

Obligatorio

Valores válidos: 4 ≤ entero positivo ≤ 4096

batch_metrics_publish_interval

El intervalo (cada X lotes) en el que la función Apache MXNet Speedometer imprime la velocidad de capacitación la red (muestras/segundo).

Opcional

Valores válidos: entero positivo ≥ 1

Valor predeterminado: 1,000

epochs

El número máximo de pases sobre los datos de capacitación. El valor óptimo depende del tamaño de los datos y de la tasa de aprendizaje. Los valores típicos están comprendidos entre 5 y 100.

Opcional

Valores válidos: entero positivo ≥ 1

Valor predeterminado: 10

learning_rate

La tasa de aprendizaje para el optimizador. IP Insights utiliza un optimizador gradient-descent-based Adam. La tasa de aprendizaje controla de forma eficaz el tamaño de paso para actualizar los parámetros del modelo en cada iteración. Una tasa de aprendizaje demasiado elevada puede provocar que el modelo diverja porque es probable que la capacitación sobrepase un mínimo. Por otra parte, una tasa de aprendizaje demasiado pequeña ralentiza la convergencia. Los valores típicos están comprometidos entre 1e-4 y 1e-1.

Opcional

Valores válidos: 1e-6 ≤ flotante ≤ 10,0

Valor predeterminado: 0.001

mini_batch_size

El número de ejemplos en cada mini lote. El procedimiento de capacitación procesa los datos en mini lotes. El valor óptimo depende del número de identificadores de cuenta exclusivo del conjunto de datos. En general, cuanto más grande seamini_batch_size, más rápido será el entrenamiento y mayor será el número de shuffled-negative-sample combinaciones posibles. Sin embargo, con un gran mini_batch_size, la capacitación es más probable que converja en un mínimo local deficiente y que funcione relativamente peor para realizar inferencias.

Opcional

Valores válidos: 1 ≤ entero positivo ≤ 500 000

Valor predeterminado: 10,000

num_ip_encoder_layers

El número de capas totalmente conectadas que se emplea para codificar la integración de dirección IP. Cuanto mayor sea el número de capas, mayor será la capacidad del modelo para capturar patrones entre direcciones IP. Sin embargo, con un gran número de capas aumenta el riesgo de sobreajuste.

Opcional

Valores válidos: 0 ≤ entero positivo ≤ 100

Valor predeterminado: 1

random_negative_sampling_rate

El número de muestras negativas aleatorias, R, para generar por ejemplo de entrada. El procedimiento de capacitación se basa en muestras negativas para evitar que las representaciones vectoriales del modelo se colapsen en un único punto. El muestreo negativo aleatorio genera R direcciones IP aleatorias para cada cuenta de entrada en el mini lote. La suma de la random_negative_sampling_rate (R) y la shuffled_negative_sampling_rate (S) debe estar en el intervalo 1 ≤ R + S ≤ 500.

Opcional

Valores válidos: 0 ≤ entero positivo ≤ 500

Valor predeterminado: 1

shuffled_negative_sampling_rate

El número de muestras negativas desordenadas, S, para generar por ejemplo de entrada. En algunos casos, resulta útil utilizar muestras negativas más realistas que son recogidas de forma aleatoria de los propios datos de capacitación. Este tipo de muestreo negativo se consigue mezclando los datos dentro de un mini lote. El muestreo negativo desordenado genera S direcciones IP negativas mezclando la dirección IP y los pares de cuenta dentro de un mini lote. La suma de la random_negative_sampling_rate (R) y la shuffled_negative_sampling_rate (S) debe estar en el intervalo 1 ≤ R + S ≤ 500.

Opcional

Valores válidos: 0 ≤ entero positivo ≤ 500

Valor predeterminado: 1

weight_decay

El coeficiente de degradación de ponderación. Este parámetro añade un factor de regularización L2 que se requiere para evitar el modelo del sobreajuste de los datos de capacitación.

Opcional

Valores válidos: 0,0 ≤ flotante ≤ 10,0

Valor predeterminado: 0.00001