Importância da variável do modelo - Amazon Fraud Detector

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Importância da variável do modelo

A importância da variável do modelo é um recurso do Amazon Fraud Detector que classifica as variáveis do modelo em uma versão do modelo. Cada variável do modelo recebe um valor com base em sua importância relativa para o desempenho geral do seu modelo. A variável do modelo com o valor mais alto é mais importante para o modelo do que as outras variáveis do modelo no conjunto de dados dessa versão do modelo e está listada na parte superior por padrão. Da mesma forma, a variável do modelo com o menor valor é listada na parte inferior por padrão e é menos importante em comparação com as outras variáveis do modelo. Usando os valores de importância das variáveis do modelo, você pode obter informações sobre quais entradas estão impulsionando o desempenho do seu modelo.

Você pode visualizar os valores de importância das variáveis do modelo para sua versão treinada no console do Amazon Fraud Detector ou usando a DescribeModelVersionAPI.

A importância da variável do modelo fornece o seguinte conjunto de valores para cada variável usada para treinar a versão do modelo.

  • Tipo de variável: Tipo de variável (por exemplo, endereço IP ou e-mail). Para obter mais informações, consulte Tipos de variáveis. Para os modelos Account Takeover Insights (ATI), o Amazon Fraud Detector fornece um valor de importância variável para o tipo de variável bruta e agregada. Os tipos de variáveis brutas são atribuídos às variáveis que você fornece. O tipo de variável agregada é atribuído a um conjunto de variáveis brutas que o Amazon Fraud Detector combinou para calcular um valor de importância agregada.

  • Nome da variável: Nome da variável de evento usada para treinar a versão do modelo (por exemplo,ip_address,email_address,are_creadentials_valid). Para o tipo de variável agregada, os nomes de todas as variáveis que foram usadas para calcular o valor de importância da variável agregada são listados.

  • Valor de importância da variável: um número que representa a importância relativa da variável bruta ou agregada para o desempenho do modelo. Intervalo típico: 0—10

No console do Amazon Fraud Detector, os valores de importância das variáveis do modelo são exibidos da seguinte forma para um modelo Online Fraud Insights (OFI) ou Transaction Fraud Insights (TFI). Um modelo Account Takeover Insight (ATI) fornecerá valores agregados de importância variável, além dos valores de importância da variável bruta. O gráfico visual facilita a visualização da importância relativa entre as variáveis, com a linha pontilhada vertical fornecendo referência ao valor de importância da variável mais bem classificada.

Gráfico de importância da variável do modelo.

O Amazon Fraud Detector gera valores de importância variáveis para cada versão do modelo do Fraud Detector sem custo adicional.

Importante

As versões do modelo criadas antes de 9 de julho de 2021 não têm valores de importância variáveis. Você deve treinar uma nova versão do seu modelo para gerar os valores de importância das variáveis do modelo.

Usando valores de importância da variável do modelo

Você pode usar os valores de importância das variáveis do modelo para obter informações sobre o que está aumentando ou diminuindo o desempenho do seu modelo e quais variáveis contribuem mais. Em seguida, ajuste seu modelo para melhorar o desempenho geral.

Mais especificamente, para melhorar o desempenho do modelo, examine os valores de importância das variáveis em relação ao seu conhecimento de domínio e depure os problemas nos dados de treinamento. Por exemplo, se o ID da conta foi usado como entrada para o modelo e está listado na parte superior, dê uma olhada no valor de importância variável. Se o valor de importância da variável for significativamente maior do que o restante dos valores, seu modelo pode estar se ajustando demais a um padrão de fraude específico (por exemplo, todos os eventos de fraude são do mesmo ID de conta). No entanto, também pode ocorrer um vazamento de etiquetas se a variável depender das etiquetas fraudulentas. Dependendo do resultado da análise com base no conhecimento do seu domínio, talvez você queira remover a variável e treinar com um conjunto de dados mais diversificado ou manter o modelo como está.

Da mesma forma, dê uma olhada nas variáveis classificadas por último. Se o valor de importância da variável for significativamente menor do que o restante dos valores, essa variável do modelo pode não ter nenhuma importância no treinamento do seu modelo. Você pode considerar remover a variável para treinar uma versão mais simples do modelo. Se seu modelo tiver poucas variáveis, como apenas duas variáveis, o Amazon Fraud Detector ainda fornecerá os valores de importância das variáveis e classificará as variáveis. No entanto, os insights nesse caso serão limitados.

Importante
  1. Se você notar que faltam variáveis no gráfico de importância das variáveis do modelo, isso pode ser devido a um dos seguintes motivos. Considere modificar a variável em seu conjunto de dados e retreinar seu modelo.

    • A contagem de valores exclusivos para a variável no conjunto de dados de treinamento é menor que 100.

    • Mais de 0,9 dos valores da variável estão ausentes no conjunto de dados de treinamento.

  2. Você precisa treinar uma nova versão do modelo sempre que quiser ajustar as variáveis de entrada do seu modelo.

Avaliação dos valores de importância das variáveis do modelo

Recomendamos que você considere o seguinte ao avaliar os valores de importância das variáveis do modelo:

  • Os valores de importância das variáveis devem sempre ser avaliados em combinação com o conhecimento do domínio.

  • Examine o valor de importância variável de uma variável em relação ao valor de importância variável das outras variáveis na versão do modelo. Não considere o valor de importância da variável para uma única variável de forma independente.

  • Compare os valores de importância das variáveis na mesma versão do modelo. Não compare os valores de importância variável das mesmas variáveis nas versões do modelo porque o valor da importância variável de uma variável em uma versão do modelo pode ser diferente do valor da mesma variável em uma versão diferente do modelo. Se você usar as mesmas variáveis e o mesmo conjunto de dados para treinar diferentes versões do modelo, isso não gerará necessariamente os mesmos valores de importância da variável.

Visualizando a classificação de importância das variáveis do modelo

Depois que o treinamento do modelo for concluído, você poderá visualizar a classificação de importância variável do modelo da sua versão treinada no console do Amazon Fraud Detector ou usando a DescribeModelVersionAPI.

Para visualizar a classificação de importância da variável do modelo usando o console,
  1. Abra o AWS console e faça login na sua conta. Navegue até o Amazon Fraud Detector.

  2. No painel de navegação à esquerda, selecione Modelos.

  3. Escolha seu modelo e depois a versão do modelo.

  4. Certifique-se de que a guia Visão geral esteja selecionada.

  5. Role para baixo para ver o painel Importância da variável do modelo.

Entendendo como o valor de importância da variável do modelo é calculado

Após a conclusão do treinamento de cada versão do modelo, o Amazon Fraud Detector gera automaticamente os valores de importância das variáveis do modelo e as métricas de desempenho do modelo. Para isso, o Amazon Fraud Detector usa o SHaPley Additive Explanations (SHAP). O SHAP é essencialmente a contribuição média esperada de uma variável do modelo após todas as combinações possíveis de todas as variáveis do modelo terem sido consideradas.

O SHAP primeiro atribui a contribuição de cada variável do modelo para a previsão de um evento. Em seguida, ele agrega essas previsões para criar uma classificação das variáveis no nível do modelo. Para atribuir contribuições de cada variável do modelo para uma previsão, o SHAP considera as diferenças nas saídas do modelo entre todas as combinações possíveis de variáveis. Ao incluir todas as possibilidades de incluir ou remover um conjunto específico de variáveis para gerar uma saída de modelo, o SHAP pode acessar com precisão a importância de cada variável do modelo. Isso é particularmente importante quando as variáveis do modelo estão altamente correlacionadas entre si.

Os modelos de ML, na maioria dos casos, não permitem que você remova variáveis. Em vez disso, você pode substituir uma variável removida ou ausente no modelo pelos valores correspondentes de uma ou mais linhas de base (por exemplo, eventos não fraudulentos). Escolher instâncias básicas adequadas pode ser difícil, mas o Amazon Fraud Detector facilita isso definindo essa linha de base como a média da população para você.