當前位置:股票大全官網 - 股票投資 - 異常檢測(ⅱ)——傳統統計方法

異常檢測(ⅱ)——傳統統計方法

統計方法的有效性高度依賴於由給定數據做出的統計模型假設是否成立。

異常檢測的統計方法的壹般思想是學習適合給定數據集的生成模型,然後將模型的低概率區域中的對象識別為異常值。

比如正態分布中除3以外的點就是異常點,箱線圖中超過2 Q的點就是異常點。

根據如何指定和學習模型,異常檢測的統計方法可以分為兩大類:參數方法和非參數方法。

參數化方法假設正常數據對象是由帶參數的參數分布生成的。參數分布的概率密度函數給出了該分布生成對象的概率。數值越小,越容易成為異常點。

非參數方法不假設先驗統計模型,而是試圖從輸入數據中確定模型。非參數方法通常假設參數的數目和性質是靈活的,不是預先確定的(所以非參數方法並不意味著模型是完全非參數的,沒有參數就無法從數據中學習模型)。

只包含壹個屬性或變量的數據稱為元數據。我們假設數據是由壹個正態分布產生的,然後就可以從輸入的數據中學習正態分布的參數,把概率低的點識別為異常點。

假設輸入數據集為,數據集中的樣本服從正態分布,即我們可以根據樣本求出參數和。

計算完參數後,我們就可以根據概率密度函數計算出數據點服從分布的概率。正態分布的概率密度函數為

如果計算的概率低於閾值,則該數據點可以被認為是異常點。

閾值為經驗值,可以選擇使驗證集上的評價指標值最大(即效果最好)的閾值作為最終閾值。

比如在常用的3sigma原理中,如果數據點超出範圍,那麽這些點很可能就是異常點。

這種方法也可以用於可視化。箱線圖對數據分布做了壹個簡單的統計可視化,它是利用上下四分位數(Q1和Q3)和數據集的中點形成的。異常值通常被定義為小於Q1-1.5 iqr或大於q 31.5 iqr的數據。

用Python畫壹個簡單的方框圖:

涉及兩個或兩個以上屬性或變量的數據稱為多元數據。許多單變量異常檢測方法可以擴展到處理多變量數據。其核心思想是將多變量異常檢測任務轉化為單變量異常檢測問題。比如將基於正態分布的單變量異常值的檢測推廣到多變量的情況下,就可以得到各個維度的均值和標準差。對於維度:

計算概率時的概率密度函數為

這是在每個維度的特征相互獨立的情況下。如果特征之間存在相關性,將使用多元高斯分布。

在許多情況下,假設數據是由正態分布產生的。當實際數據比較復雜時,這種假設過於簡單,可以假設數據是混合參數分布產生的。

在異常檢測的非參數方法中,“正常數據”的模型從輸入數據中學習,而不是假設先驗。壹般來說,非參數方法對數據的假設較少,所以可以用在更多的場合。

示例:使用直方圖檢測異常值。

直方圖是壹種常用的非參數統計模型,可以用來檢測異常值。該過程包括以下兩個步驟:

步驟1:構造直方圖。使用輸入數據(訓練數據)構建直方圖。直方圖可以是單變量或多變量的(如果輸入數據是多維的)。

盡管非參數方法不假設任何先驗統計模型,但它們通常需要用戶提供參數來從數據中學習。例如,用戶必須指定直方圖的類型(寬度或深度)和其他參數(直方圖中的方框數量或每個方框的大小等)。).與參數方法不同,這些參數不指定數據分布的類型。

第二步:檢測異常值。為了確定對象是否是異常值,可以對照直方圖對其進行檢查。最簡單的方法,如果物體落入直方圖中的壹個方框內,則視為正常,否則視為異常點。

對於更復雜的方法,可以使用直方圖給每個對象壹個異常點分數。例如,物體的異常點分數是物體落入的盒子的體積的倒數。

使用直方圖作為離群點檢測的非參數模型的壹個缺點是很難選擇合適的盒子大小。壹方面,如果盒子尺寸太小,很多正常物體會落入空的或稀疏的盒子中,因此會被誤認為是異常點。另壹方面,如果盒子尺寸太大,離群對象可能會滲透到壹些頻繁的盒子中,從而“假裝”正常。

BOS的全稱是:基於直方圖的離群值得分。它是單變量方法的組合,不能對特征之間的依賴關系進行建模,但對大數據集快速友好。基本假設是數據集的每個維度都是相互獨立的。然後將每個維度劃分為面元,面元密度越高,異常分值越低。

HBOS算法流程:

1.為每個數據維度制作壹個數據直方圖。計算每個值的頻率,並計算分類數據的相對頻率。根據數值數據分布的不同,采用以下兩種方法:

靜態寬度直方圖:壹種標準的直方圖構造方法,在取值範圍內使用k個等寬框。樣品落入每個桶中的頻率(相對數量)用作密度(箱子高度)的估計值。時間復雜度:

2.動態寬度直方圖:首先對所有值進行排序,然後將固定數量的連續值放入壹個盒子中,其中n為實例總數,k為盒子數;直方圖中的方框區域表示實例的數量。因為盒子的寬度是由盒子中的第壹個值和最後壹個值決定的,所以所有盒子的面積都是壹樣的,這樣就可以計算出每個盒子的高度。這意味著跨度大的箱子高度低,也就是密度低,除了壹種情況,超過k的箱子數量相等時,允許在同壹個箱子內超過數值。

時間復雜度:

2.為每個維度計算壹個獨立的直方圖,其中每個方框的高度表示密度的估計值。然後為了使最大高度為1(保證每個特征和離群點的權重相等),對直方圖進行歸壹化處理。最後,通過以下公式計算每個實例的HBOS值:

扣除過程:

假設樣本P的第I個特征的概率密度為,則P的概率密度可計算如下:兩邊的對數:概率密度越大,異常分值越小。為方便計分,兩邊乘以“-1”:最後:

1.異常檢測的統計方法從數據中學習模型,以區分正常數據對象和異常點。使用統計方法的壹個優點是異常檢測在統計上不會引起異議。當然,只有在對數據做出的統計假設滿足實際約束的情況下才成立。

2.HBOS在全局異常檢測方面表現良好,但不能檢測局部異常值。但HBOS比標準算法快得多,尤其是在大型數據集上。