As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Hiperparâmetros do XGBoost

A tabela a seguir contém o subconjunto de hiperparâmetros que são necessários ou mais comumente usados para o algoritmo Amazon SageMaker XGBoost. Esses parâmetros são definidos pelos usuários para facilitar a estimativa dos parâmetros do modelo a partir dos dados. Os hiperparâmetros necessários que devem ser definidos são listados primeiro, em ordem alfabética. Os hiperparâmetros opcionais que podem ser configurados são listados em seguida, também em ordem alfabética. O algoritmo SageMaker XGBoost é uma implementação do pacote DMLC XGBoost de código aberto. Para obter detalhes sobre o conjunto completo de hiperparâmetros que podem ser configurados para esta versão do XGBoost, consulte Parâmetros do XGBoost.

Nome do parâmetro Descrição
num_class

O número de classes.

Obrigatório se objective estiver definido como multi:softmax ou multi:softprob.

Valores válidos: inteiro.

num_round

O número de rodadas para execução do treinamento.

Obrigatório

Valores válidos: inteiro.

alpha

Termo de regularização L1 nos pesos. Aumentar esse valor torna os modelos mais conservadores.

Opcional

Valores válidos: flutuante.

Valor padrão: 0

base_score

A pontuação de previsão inicial de todas as instâncias, a polarização global.

Opcional

Valores válidos: flutuante.

Valor padrão: 0.5

booster

O objeto de aumento a ser usado. Os valores gbtree e dart usam um modelo baseado em árvore, enquanto gblinear usa uma função linear.

Opcional

Valores válidos: string. "gbtree", "gblinear" ou "dart".

Valor padrão: "gbtree"

colsample_bylevel

Taxa de subsampling de colunas para cada divisão, em cada nível.

Opcional

Valores válidos: flutuante. Intervalo: [0,1].

Valor padrão: 1

colsample_bynode

Taxa de subamostra de colunas de cada nó.

Opcional

Valores válidos: flutuante. Intervalo: [0,1].

Valor padrão: 1

colsample_bytree

Taxa de subsampling de colunas ao criar cada árvore.

Opcional

Valores válidos: flutuante. Intervalo: [0,1].

Valor padrão: 1

csv_weights

Quando esse sinalizador está habilitado, o XGBoost diferencia a importância de instâncias para a entrada csv usando a segunda coluna (a coluna após os rótulos) nos dados de treinamento como os pesos da instância.

Opcional

Valores válidos: 0 ou 1

Valor padrão: 0

deterministic_histogram

Quando esse sinalizador é habilitado, o XGBoost cria o histograma na GPU de forma determinística. Usado somente quando tree_method está definido como gpu_hist.

Para obter uma lista completa de entradas válidas, consulte este artigo sobre parâmetros do XGBoost.

Opcional

Valores válidos: string. Intervalo: "true" ou "false".

Valor padrão: "true"

early_stopping_rounds

O modelo será treinado até que a pontuação de validação pare de melhorar. O erro de validação precisa diminuir pelo menos early_stopping_rounds a cada vez para continuar treinando. SageMakera hospedagem usa o melhor modelo para inferência.

Opcional

Valores válidos: inteiro.

Valor padrão: -

eta

Diminuição do tamanho das etapas: técnica usada em atualizações para evitar o sobreajuste. Depois de cada etapa de aumento, você pode obter os pesos dos novos recursos diretamente. Na verdade, o parâmetro eta diminui os pesos dos recursos para tornar o processo de aumento mais conservador.

Opcional

Valores válidos: flutuante. Intervalo: [0,1].

Valor padrão: 0.3

eval_metric

Métricas de avaliação para os dados de validação. Uma métrica padrão é atribuída de acordo com o objetivo:

  • rmse: para regressão

  • error: para classificação

  • map: para classificação

Para obter uma lista de entradas válidas, consulte Parâmetros de tarefa de aprendizado do XGBoost.

Opcional

Valores válidos: string.

Valor padrão: de acordo com o objetivo.

gamma

A redução de perda mínima necessária para fazer uma partição adicional em um nó de folha da árvore. Quanto maior for o parâmetro, mais conservador será o algoritmo.

Opcional

Valores válidos: flutuante. Intervalo: [0,∞).

Valor padrão: 0

grow_policy

Controla a forma como os novos nós são adicionados à árvore. No momento, ele apenas tem suporte quando tree_method está definido como hist.

Opcional

Valores válidos: string. "depthwise" ou "lossguide".

Valor padrão: "depthwise"

interaction_constraints

Especifique grupos de variáveis que podem interagir.

Opcional

Valores válidos: Lista aninhada de números inteiros. Cada número inteiro representa um atributo, e cada lista aninhada contém atributos que podem interagir, por exemplo, [[1,2], [3,4,5]].

Valor padrão: Nenhum

lambda

Termo de regularização L2 nos pesos. Aumentar esse valor torna os modelos mais conservadores.

Opcional

Valores válidos: flutuante.

Valor padrão: 1

lambda_bias

Termo de regularização L2 na polarização.

Opcional

Valores válidos: flutuante. Intervalo: [0.0, 1.0].

Valor padrão: 0

max_bin

O número máximo de compartilhamentos distintos para os recursos contínuos de bucket. Usado somente quando tree_method está definido como hist.

Opcional

Valores válidos: inteiro.

Valor padrão: 256

max_delta_step

O máximo de etapas delta permitido para a estimativa de peso de cada árvore. Quando um inteiro positivo é usado, ajuda a tornar a atualização mais conservadora. A opção preferida é usá-lo em regressão logística. Defina-o como 1 a 10 para ajudar a controlar a atualização.

Opcional

Valores válidos: inteiro. Intervalo: [0,∞).

Valor padrão: 0

max_depth

A profundidade máxima de uma árvore. Aumentar esse valor torna o modelo mais complexo e propenso a sofrer sobreajuste. 0 indica que não há limite. Um limite é necessário quando grow_policy=depth-wise.

Opcional

Valores válidos: inteiro. Intervalo: [0,∞)

Valor padrão: 6

max_leaves

O número máximo de nós a ser adicionado. Relevante apenas quando grow_policy está definido como lossguide.

Opcional

Valores válidos: inteiro.

Valor padrão: 0

min_child_weight

A soma mínima de peso de instância (hessiano) necessária em um elemento filho. Se a etapa de partição da árvore resulta em um nó de folha com a soma de peso de instância inferior a min_child_weight, o processo de criação cede mais particionamento. Em modelos de regressão linear, isso basicamente corresponde ao número mínimo de instâncias necessárias em cada nó. Quanto maior for o algoritmo, mais conservador ele será.

Opcional

Valores válidos: flutuante. Intervalo: [0,∞).

Valor padrão: 1

monotone_constraints

Especifica as restrições de monotonicidade em qualquer atributo.

Opcional

Valores válidos: Tupla de números inteiros. Números inteiros válidos: -1 (restrição decrescente), 0 (sem restrição), 1 (restrição crescente).

Por exemplo, (0, 1): Nenhuma restrição no primeiro preditor e uma restrição crescente no segundo. (-1, 1): Restrição decrescente no primeiro preditor e uma restrição crescente no segundo.

Valor padrão: (0, 0)

normalize_type

Tipo de algoritmo de normalização.

Opcional

Valores válidos: tree ou forest.

Valor padrão: tree

nthread

Número de threads paralelos usado para executar xgboost.

Opcional

Valores válidos: inteiro.

Valor padrão: o número máximo de threads.

objective

Especifica a tarefa de aprendizagem e o objetivo de aprendizagem correspondente. Exemplos: reg:logistic, multi:softmax, reg:squarederror. Para obter uma lista completa de entradas válidas, consulte Parâmetros de tarefa de aprendizado do XGBoost.

Opcional

Valores válidos: string

Valor padrão: "reg:squarederror"

one_drop

Quando esse sinalizador está habilitado, pelo menos uma árvore é sempre descartada durante o processo.

Opcional

Valores válidos: 0 ou 1

Valor padrão: 0

process_type

O tipo de processo de aumento a ser executado.

Opcional

Valores válidos: string. "default" ou "update".

Valor padrão: "default"

rate_drop

A taxa de abandono que especifica a fração de árvores anteriores a serem descartadas durante o abandono.

Opcional

Valores válidos: flutuante. Intervalo: [0.0, 1.0].

Valor padrão: 0.0

refresh_leaf

Este é um parâmetro do plug-in do atualizador "refresh". Quando definido como true (1), as folhas da árvore e as estatísticas de nó da árvore são atualizadas. Quando definido como false (0), somente as estatísticas de nós da árvore são atualizadas.

Opcional

Valores válidos: 0/1

Valor padrão: 1

sample_type

Tipo de algoritmo de amostragem.

Opcional

Valores válidos: uniform ou weighted.

Valor padrão: uniform

scale_pos_weight

Controla o equilíbrio dos pesos positivos e negativos. É útil para classes desbalanceadas. Um valor típico a ser considerado: sum(negative cases) / sum(positive cases).

Opcional

Valores válidos: flutuante

Valor padrão: 1

seed

Origem de número aleatório.

Opcional

Valores válidos: inteiro

Valor padrão: 0

single_precision_histogram

Quando esse sinalizador estiver habilitado, o XGBoost usará precisão única para criar histogramas em vez de precisão dupla. Usado somente se tree_method estiver definido como hist ou gpu_hist.

Para obter uma lista completa de entradas válidas, consulte este artigo sobre parâmetros do XGBoost.

Opcional

Valores válidos: string. Intervalo: "true" ou "false"

Valor padrão: "false"

sketch_eps

Usado apenas para algoritmo voraz aproximado. Isso se converte em O(1 / número de compartimentos sketch_eps) Em comparação com o número de compartimentos diretamente selecionado, esse parâmetro agrega garantia teórica com precisão de esboço.

Opcional

Valores válidos: flutuante. Intervalo: [0, 1].

Valor padrão: 0.03

skip_drop

Probabilidade de ignorar o procedimento de dropout durante uma iteração de aumento.

Opcional

Valores válidos: flutuante. Intervalo: [0.0, 1.0].

Valor padrão: 0.0

subsample

Taxa de subsampling da instância de treinamento. Se você configurá-la como 0,5, o XGBoost aleatoriamente coletará metade das instâncias de dados para expandir as árvores. Isso evita o sobreajuste.

Opcional

Valores válidos: flutuante. Intervalo: [0,1].

Valor padrão: 1

tree_method

O algoritmo de criação de árvores usado no XGBoost.

Opcional

Valores válidos: Um de auto, exact, approx, hist ou gpu_hist.

Valor padrão: auto

tweedie_variance_power

O parâmetro que controla a variação da distribuição Tweedie.

Opcional

Valores válidos: flutuante. Intervalo: (1, 2).

Valor padrão: 1.5

updater

Uma string separada por vírgulas que define a sequência de atualizadores de árvore a ser executada. Isso fornece uma forma modular de criar e modificar as árvores.

Para obter uma lista completa de entradas válidas, consulte este artigo sobre parâmetros do XGBoost.

Opcional

Valores válidos: string separada por vírgulas.

Valor padrão: grow_colmaker, prune

use_dask_gpu_training

Defina use_dask_gpu_training como "true" se quiser executar um treinamento distribuído de GPU com o Dask. Só há suporte para o treinamento de GPU do Dask nas versões 1.5-1 e posteriores. Não defina esse valor como "true" nas versões anteriores à 1.5-1. Para ter mais informações, consulte Treinamento de GPU distribuído.

Opcional

Valores válidos: string. Intervalo: "true" ou "false"

Valor padrão: "false"

verbosity

Verbosidade de impressão de mensagens.

Valores válidos: 0 (silencioso), 1 (aviso), 2 (informações), 3 (depuração).

Opcional

Valor padrão: 1