Como o RCF é aplicado à detecção de anomalias - Amazon QuickSight

Importante: redesenhamos o espaço de trabalho de QuickSight análise da Amazon. Você pode encontrar capturas de tela ou texto processual que não reflitam a nova aparência no console. QuickSight Estamos no processo de atualização das capturas de tela e do texto de procedimento.

Para encontrar um atributo ou item, use a barra de pesquisa rápida.

Para obter mais informações sobre QuickSight o novo visual, consulte Apresentando a nova experiência de análise na Amazon QuickSight.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como o RCF é aplicado à detecção de anomalias

Uma pessoa pode distinguir facilmente um ponto de dados que se destaca do restante dos dados. O RCF faz a mesma coisa ao criar uma "floresta" de árvores de decisão e monitorar como novos pontos de dados alteram a floresta.

Uma anomalia é um ponto de dados que desvia sua atenção dos pontos normais. Pense na imagem de uma flor vermelha em um campo de flores amarelas. Este "deslocamento de atenção" é codificado na posição (esperada) de uma árvore (ou seja, um modelo no RCF) que seria ocupada pelo ponto de entrada. A ideia é criar uma floresta em que cada árvore de decisão cresça a partir de uma partição dos dados usados na amostra para o treinamento do algoritmo. Em termos mais técnicos, cada árvore cria um tipo específico de árvore de particionamento binário de espaço nas amostras. À medida que a Amazon QuickSight coleta amostras dos dados, o RCF atribui a cada ponto de dados uma pontuação de anomalia. Ele dá pontuações maiores a pontos de dados que parecem anômalos. A pontuação é, na aproximação, inversamente proporcional à profundidade resultante do ponto na árvore. Para atribuir uma pontuação de anomalia, o Random Cut Forest calcula a pontuação média de cada árvore integrante e escala o resultado em relação ao tamanho da amostra.

Os votos ou as pontuações dos diferentes modelos são agregados, pois cada um dos modelos por si só é um previsor fraco. A Amazon QuickSight identifica um ponto de dados como anômalo quando sua pontuação é significativamente diferente dos pontos recentes. O que é considerado uma anomalia depende do aplicativo.

O paper Random Cut Forest Based Anomaly Detection On Streams fornece vários exemplos dessa detecção state-of-the-art on-line de anomalias (detecção de anomalias em séries temporais). Os RCFs são usados em segmentos contíguos ou "zonas" de dados, em que os dados do segmento imediato atuam como um contexto para o mais recente. As versões anteriores dos algoritmos de detecção de anomalias baseados em RCF pontuam uma zona inteira. O algoritmo na Amazon QuickSight também fornece uma localização aproximada da anomalia no contexto estendido atual. Essa localização aproximada pode ser útil caso haja um atraso na detecção da anomalia. Atrasos ocorrem porque qualquer algoritmo precisa caracterizar "desvios vistos anteriormente" como "desvios anômalos", o que pode levar algum tempo.