RCF 如何套用到異常偵測上 - Amazon QuickSight

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

RCF 如何套用到異常偵測上

人類可以輕鬆區別異於其餘資料的資料點。RCF 會建置決策樹的「樹系」,然後監控新的資料點如何改變樹系,藉此跟人類做同樣的動作。

異常是把您的注意力從正常資料點吸引過來的資料點,想像一下在滿佈黃花田野中出現一朵紅花的影像。此「注意力轉移」編碼於樹中 (也就是 RCF 中的模型) 可能會被輸入點佔用的 (預期) 位置。此概念是建立樹系,其中每個決策樹源自於為了訓練演算法而取樣的資料分割。以更技術性的用語來說,每個決策樹會在樣本上建置特定類型的二元空間分割樹。隨著 Amazon QuickSight 取樣資料,RCF 會給每個資料點指派異常分數。它會給看來異常的資料點打更高的分數。分數大致與此樹中所產生的資料點深度成反比。隨機切割森林演算法會藉由計算出每個組成樹的平均分數,並根據樣本大小來擴充結果,以指派異常分數。

由於各模型本身即是較弱的預測器,因此會彙總不同模型的投票或分數。當資料點的分數與最近的分數顯著不同時,Amazon QuickSight 就會將資料點辨識為異常。什麼情況稱得上異常,這取決於應用程式。

在串流使用穩健的以 Random Cut Forest 為基礎的異常偵測一文提供此先進線上異常偵測的多種範例 (時間序列異常偵測)。RCF 用於資料的接續區段或「瓦片」,其中鄰近區段中的資料會做為最近資料的內容。上一版採用 RCF 技術的異常偵測演算法會給整塊瓦片打分數。Amazon QuickSight 中的演算法也會在目前延伸內容中提供異常的約略位置。在異常偵測出現延遲的情境下,此約略位置相當實用。由於任一演算都都需要將「之前察覺到的偏差」描述成「異常偏差」,因而會發生延遲,而此延遲會隨著時間發生。