Desequilíbrio de classes (CI) - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Desequilíbrio de classes (CI)

O desvio de desequilíbrio de classes (CI) ocorre quando um valor de faceta d tem menos amostras de treinamento quando comparado com outra faceta a no conjunto de dados. Isso ocorre porque os modelos se ajustam preferencialmente às facetas maiores em detrimento das facetas menores e, portanto, podem resultar em um maior erro de treinamento para a faceta d. Os modelos também correm maior risco de sobreajustar os conjuntos de dados menores, o que pode causar um erro de teste maior para a faceta d. Considere o exemplo em que um modelo de machine learning é treinado principalmente com dados de indivíduos de meia idade (faceta a). Ele pode ser menos preciso ao fazer previsões envolvendo pessoas mais jovens e mais velhas (faceta d).

Fórmula para a medida de desequilíbrio facetário (normalizada):

        CI = (na - nd)/(na + nd)

Onde na é o número de membros da faceta a e nd o número da faceta d. Seus valores variam ao longo do intervalo [-1, 1].

  • Valores positivos de CI indicam que a faceta a tem mais amostras de treinamento no conjunto de dados e um valor de 1 indica que os dados contêm apenas membros da faceta a.

  • Valores de CI próximos de zero indicam uma distribuição mais uniforme de membros entre facetas e um valor de zero indica uma partição perfeitamente igual entre facetas e representa uma distribuição equilibrada de amostras nos dados de treinamento.

  • Valores negativos de CI indicam que a faceta d tem mais amostras de treinamento no conjunto de dados e um valor de -1 indica que os dados contêm apenas membros da faceta d.

  • Os valores de CI próximos a qualquer um dos valores extremos de -1 ou 1 estão muito desequilibrados e correm um risco substancial de fazer previsões tendenciosas.

Se for constatado que existe um desequilíbrio significativo entre as facetas, você deve reequilibrar a amostra antes de continuar treinando modelos nela.