Hiperparâmetros do IP Insights - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Hiperparâmetros do IP Insights

Na solicitação CreateTransformJob, é especificado o algoritmo de treinamento. Você também pode especificar hiperparâmetros específicos do algoritmo como mapas. string-to-string A tabela a seguir lista os hiperparâmetros do algoritmo Amazon SageMaker IP Insights.

Nome do parâmetro Descrição
num_entity_vectors

O número de representações vetoriais de entidades (vetores de incorporação de entidades) a serem treinadas. Cada entidade no conjunto de treinamento é aleatoriamente atribuída a um desses vetores usando uma função de hash. Por causa de colisões de hash, é possível ter várias entidades atribuídas ao mesmo vetor. Isso faria com que o mesmo vetor representasse várias entidades. Isso geralmente tem um efeito insignificante no desempenho do modelo, desde que a taxa de colisões não seja muito alta. Para manter a taxa de colisões baixa, defina esse valor o mais alto possível. No entanto, o tamanho do modelo e, portanto, o requisito de memória, tanto para treinamento quanto para inferência, são dimensionados linearmente com esse hiperparâmetro. Recomendamos que você defina esse valor como duas vezes o número de identificadores de entidade exclusivos.

Obrigatório

Valores válidos: 1 ≤ número inteiro positivo ≤ 250.000.000

vector_dim

O tamanho dos vetores de incorporação para representar entidades e endereços IP. Quanto maior o valor, mais informações podem ser codificadas usando essas representações. Na prática, o tamanho do modelo é dimensionado linearmente com esse parâmetro e limita o tamanho da dimensão. Além disso, usar representações vetoriais muito grandes pode causar o sobreajuste do modelo, especialmente para conjuntos de dados de treinamento pequenos. O sobreajuste ocorre quando um modelo não aprende um padrão nos dados, mas memoriza efetivamente os dados de treinamento e, portanto, não pode generalizar bem e acaba apresentando um desempenho ruim durante a inferência. O valor recomendado é 128.

Obrigatório

Valores válidos: 4 ≤ número inteiro positivo ≤ 4096

batch_metrics_publish_interval

O intervalo (a cada X lotes) no qual a função Speedometer do Apache MXNet imprime a velocidade de treinamento da rede (amostras/segundo).

Opcional

Valores válidos: número inteiro positivo ≥ 1

Valor padrão: 1,000

epochs

O número de passagens nos dados de treinamento. O valor ideal depende do tamanho dos dados e da taxa de aprendizagem. Os valores típicos variam de 5 a 100.

Opcional

Valores válidos: número inteiro positivo ≥ 1

Valor padrão: 10

learning_rate

A taxa de aprendizagem do otimizador. O IP Insights usa um otimizador gradient-descent-based Adam. A taxa de aprendizagem controla efetivamente o tamanho das etapas para atualizar os parâmetros do modelo em cada iteração. Uma taxa de aprendizagem muito grande pode fazer com que o modelo seja divergente, pois é provável que o treinamento ultrapasse um limite mínimo. Por outro lado, uma taxa de aprendizagem muito pequena retarda a convergência. Os valores típicos variam de 1e-4 a 1e-1.

Opcional

Valores válidos: 1e-6 ≤ flutuante ≤ 10.0

Valor padrão: 0.001

mini_batch_size

O número de exemplos em cada minilote. O procedimento de treinamento processa os dados em minilotes. O valor ideal depende do número de identificadores de conta exclusivos no conjunto de dados. Em geral, quanto maiormini_batch_size, mais rápido o treinamento e maior o número de shuffled-negative-sample combinações possíveis. No entanto, com um mini_batch_size grande, é mais provável que o treinamento acabe convergindo para um mínimo local ruim e tenha um desempenho relativamente pior para inferência.

Opcional

Valores válidos: 1 ≤ número inteiro positivo ≤ 500000

Valor padrão: 10,000

num_ip_encoder_layers

O número de camadas totalmente conectadas usadas para codificar a incorporação do endereço IP. Quanto maior o número de camadas, maior a capacidade do modelo de capturar padrões entre endereços IP. No entanto, usar um número grande de camadas aumenta a chance de sobreajuste.

Opcional

Valores válidos: 0 ≤ número inteiro positivo ≤ 100

Valor padrão: 1

random_negative_sampling_rate

O número de amostras negativas aleatórias, R, a serem geradas por exemplo de entrada. O procedimento de treinamento depende de amostras negativas para evitar que as representações vetoriais do modelo colapsem em um único ponto. A amostragem negativa aleatória gera R endereços IP aleatórios para cada conta de entrada no minilote. A soma de random_negative_sampling_rate (R) e shuffled_negative_sampling_rate (S) deve estar no intervalo: 1 ≤ R + S ≤ 500.

Opcional

Valores válidos: 0 ≤ número inteiro positivo ≤ 500

Valor padrão: 1

shuffled_negative_sampling_rate

O número de amostras negativas embaralhadas, S, a serem geradas por exemplo de entrada. Em alguns casos, é útil usar amostras negativas mais realistas e escolhidas aleatoriamente dos próprios dados de treinamento. Esse tipo de amostragem negativa é obtida ao embaralhar os dados em um minilote. A amostragem negativa aleatória gera S endereços IP negativos, embaralhando os pares de endereços IP e contas em um minilote. A soma de random_negative_sampling_rate (R) e shuffled_negative_sampling_rate (S) deve estar no intervalo: 1 ≤ R + S ≤ 500.

Opcional

Valores válidos: 0 ≤ número inteiro positivo ≤ 500

Valor padrão: 1

weight_decay

O coeficiente de degradação do peso. Esse parâmetro adiciona um fator de regularização L2 necessário para evitar que o modelo cause o sobreajuste dos dados de treinamento.

Opcional

Valores válidos: 0.0 ≤ flutuante ≤ 10.0

Valor padrão: 0.00001