Linhas de base do SHAP para explicabilidade - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Linhas de base do SHAP para explicabilidade

As explicações são tipicamente contrastivas (ou seja, elas explicam os desvios de uma linha de base). Como resultado, para a mesma previsão do modelo, você pode esperar obter explicações diferentes com relação a diferentes linhas de base. Portanto, sua escolha de uma linha de base é crucial. Em um contexto de ML, a linha de base corresponde a uma instância hipotética que pode ser não informativa ou informativa. Durante o cálculo dos valores de Shapley, o SageMaker Clarify gera várias novas instâncias entre a linha de base e a instância especificada, nas quais a ausência de um recurso é modelada definindo o valor do recurso como aquele da linha de base e a presença de um recurso é modelada definindo o valor do recurso como aquele da instância específica. Assim, a ausência de todos os recursos corresponde à linha de base e a presença de todos os recuros corresponde à instância dada.

Como você pode escolher boas linhas de base? Frequentemente, é desejável selecionar uma linha de base com conteúdo de informação muito baixo. Por exemplo, você pode criar uma instância média a partir do conjunto de dados de treinamento usando a mediana ou a média para recursos numéricos e o modo para recursos categóricos. Para o exemplo de admissões em faculdades, talvez você esteja interessado em explicar por que um determinado candidato foi aceito em comparação com as aceitações das linhas de base baseado em um candidato médio. Se não for fornecida, uma linha de base é calculada automaticamente pelo SageMaker Clarify usando K-means ou K-protótipos no conjunto de dados de entrada.

Você também pode optar por gerar explicações com relação às linhas de base informativas. Para o cenário de admissão em faculdades, talvez você queira explicar por que um determinado candidato foi rejeitado em comparação com outros candidatos de origens demográficas semelhantes. Nesse caso, você pode escolher uma linha de base que represente os candidatos de interesse, ou seja, aqueles com antecedentes demográficos semelhantes. Assim, você pode usar linhas de base informativas para concentrar a análise nos aspectos específicos da previsão de um modelo específico. Você pode isolar os recursos para avaliação ao definir atributos demográficos e outros recursos sobre os quais você não pode agir com o mesmo valor de uma determinada instância.