CatBoost hiperparâmetros - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

CatBoost hiperparâmetros

A tabela a seguir contém o subconjunto de hiperparâmetros que são necessários ou mais comumente usados para o algoritmo da Amazon SageMaker CatBoost . Os usuários definem esses parâmetros para facilitar a estimativa dos parâmetros do modelo a partir dos dados. O SageMaker CatBoost algoritmo é uma implementação do CatBoostpacote de código aberto.

nota

Os hiperparâmetros padrão são baseados em conjuntos de dados de exemplo no CatBoost cadernos de amostra.

Por padrão, o SageMaker CatBoost algoritmo escolhe automaticamente uma métrica de avaliação e uma função de perda com base no tipo de problema de classificação. O CatBoost algoritmo detecta o tipo de problema de classificação com base no número de rótulos em seus dados. Para problemas de regressão, a métrica de avaliação e as funções de perda são, ambas, a raiz do erroquadrático médio. Para problemas de classificação binária, a métrica de avaliação é Área sob a curva (AUC) e a função de perda é perda de log. Para problemas de classificação multiclasse, a métrica de avaliação e as funções de perda são entropia cruzada multiclasse. Você pode usar o hiperparâmetro eval_metric para alterar a métrica de avaliação padrão. Consulte a tabela a seguir para obter mais informações sobre os hiperparâmetros do LightGBM, incluindo descrições, valores válidos e valores padrão.

Nome do parâmetro Descrição
iterations

O número máximo de árvores que podem ser construídas.

Valores válidos: inteiro, intervalo: inteiro positivo.

Valor padrão: 500.

early_stopping_rounds

O treinamento será interrompido se uma métrica de um ponto de dados de validação não melhorar na última rodada early_stopping_rounds. Se early_stopping_rounds for menor ou igual a zero, esse hiperparâmetro será ignorado.

Valores válidos: inteiro.

Valor padrão: 5.

eval_metric

A métrica de avaliação para os dados de validação. Se eval_metric for definido como o valor padrão "auto", o algoritmo escolherá automaticamente uma métrica de avaliação com base no tipo de problema de classificação:

  • "RMSE" para regressão

  • "AUC" para classificação binária

  • "MultiClass" para classificação de várias classes

Valores válidos: string, consulte a CatBoost documentação para valores válidos.

Valor padrão: "auto".

learning_rate

A taxa na qual os pesos do modelo são atualizados depois de analisar cada lote de exemplos de treinamento.

Valores válidos: flutuante. Intervalo: (0.0, 1.0).

Valor padrão: 0.009.

depth

Profundidade da árvore.

Valores válidos: flutuante. Intervalo: (1, 16).

Valor padrão: 6.

l2_leaf_reg

Coeficiente para o termo de regularização L2 da função de custo.

Valores válidos: inteiro, intervalo: inteiro positivo.

Valor padrão: 3.

random_strength

A quantidade de aleatoriedade a ser usada para dividir a pontuação quando a estrutura da árvore é selecionada. Use esse parâmetro para evitar o ajuste excessivo do modelo.

Valores válidos: flutuante, intervalo: número de ponto flutuante positivo.

Valor padrão: 1.0.

max_leaves

O número máximo de folhas na árvore resultante. Só pode ser usado com a política de crescimento "Lossguide".

Valores válidos: inteiro, Intervalo: [2, 64].

Valor padrão: 31.

rsm

Método de subespaço aleatório. A porcentagem de atributos a serem usados em cada seleção dividida, quando os atributos são selecionados aleatoriamente outra vez.

Valores válidos: flutuante. Intervalo: (0.0, 1.0].

Valor padrão: 1.0.

sampling_frequency

Frequência para amostrar pesos e objetos ao construir árvores.

Valores válidos: string, ou: ("PerTreeLevel" ou "PerTree").

Valor padrão: "PerTreeLevel".

min_data_in_leaf

O número mínimo de amostras de treinamento em uma folha. CatBoost não procura novas divisões em folhas com uma contagem de amostras menor que o valor especificado. Só pode ser usado com as políticas de crescimento "Lossguide" e "Depthwise".

Valores válidos: inteiro, Intervalo: (1 ou ).

Valor padrão: 1.

bagging_temperature

Define as configurações do bootstrap bayesiano. Use o bootstrap bayesiano para atribuir pesos aleatórios aos objetos. Se bagging_temperature estiver definido como 1.0, os pesos serão amostrados a partir de uma distribuição exponencial. Se bagging_temperature estiver definido como 0.0, todos os pesos serão 1,0.

Valores válidos: flutuante, intervalo: flutuante não negativo.

Valor padrão: 1.0.

boosting_type

O esquema de reforço. “Auto” significa que boosting_type é selecionado com base no tipo de unidade de processamento, no número de objetos no conjunto de dados de treinamento e no modo de aprendizagem selecionado.

Valores válidos: string, qualquer um dos seguintes: ("Auto", "Ordered", "Plain").

Valor padrão: "Auto".

scale_pos_weight

O peso da classe positiva na classificação binária. O valor é usado como um multiplicador para os pesos dos objetos da classe positiva.

Valores válidos: flutuante, intervalo: flutuante positivo.

Valor padrão: 1.0.

max_bin

O número de divisões para atributos numéricos. "Auto"significa que max_bin é selecionado com base no tipo de unidade de processamento e em outros parâmetros. Para obter detalhes, consulte a CatBoost documentação.

Valores válidos: string, either: ("Auto" ou string de inteiro de "1" até "65535" inclusivamente).

Valor padrão: "Auto".

grow_policy

A política de crescimento de árvores. Define como realizar a construção de árvores gananciosas.

Valores válidos: string, qualquer um dos seguintes: ("SymmetricTree", "Depthwise" ou "Lossguide").

Valor padrão: "SymmetricTree".

random_seed

A semente aleatória usada para treinamento.

Valores válidos: inteiro, intervalo: inteiro não negativo.

Valor padrão: 1.0.

thread_count

O número de threads a serem usados durante o treinamento. Se thread_count for-1, então o número de threads é igual ao número de núcleos do processador. thread_count não pode ser0.

Valores válidos: número inteiro: (ou número inteiro positivo)-1.

Valor padrão: -1.

verbose

A verbosidade das mensagens impressas, com níveis mais altos correspondendo a declarações impressas mais detalhadas.

Valores válidos: inteiro, intervalo: inteiro positivo.

Valor padrão: 1.