當前位置:股票大全官網 - 股票投資 - 相似度計算-歐氏距離,曼哈頓距離,閔可夫斯基距離,漢明距離,夾角余弦。

相似度計算-歐氏距離,曼哈頓距離,閔可夫斯基距離,漢明距離,夾角余弦。

在機器學習領域,不僅余弦距離(滿足正定性和對稱性,但不滿足三角不等式),還有KL距離(也叫相對熵(不滿足對稱性和三角不等式),常用於計算兩個分布的差異。

其中p是可變參數。

當p=1時,就是曼哈頓距離。

當p=2時,是歐氏距離。

當p→∞時,為切比雪夫距離。

等於坐標系上兩點絕對軸距之和。

在二維空間中,兩點之間的歐幾裏德距離是:

歐幾裏德距離:

同樣,我們也可以求出n維空間中兩點之間的距離:

兩點坐標之差的絕對值的最大值。

馬氏距離,也稱為數據的協方差距離,是計算兩個未知樣本集之間相似性的有效方法。Mahalanobis距離的結果是將數據投影到N(0,1)的區間,求其歐氏距離。與標準化的歐氏距離不同,Mahalanobis距離考慮了各種特征之間的關系,因為它認為每個維度都不是獨立分布的。與規模無關,考慮數據之間的關系

最典型的問題是根據距離來判斷,即假設有n個種群,計算壹個樣本X屬於哪壹類。此時,樣本X雖然最接近壹個種群的歐氏距離,但也可能不屬於它。例如,總體的方差非常小,這意味著它需要非常接近才能被歸類到這壹類別中。在這種情況下,馬氏距離比歐氏距離更適合判別。

歐氏距離反映的是數值上的絕對差異,余弦距離反映的是方向上的相對差異。

在機器學習問題中,特征通常用向量來表示,所以在分析兩個特征向量之間的相似性時,往往用余弦相似度來表示。余弦相似度的範圍是“-1,1”,相同的兩個向量之間的相似度是1。如果想得到壹個類似距離的表示,用1減去余弦相似度,得到余弦距離。所以余弦距離的取值範圍為,同樣兩個向量的余弦距離為0。

對於兩個向量A和B,剩余弦的相似性被定義為:

在興趣相關度的比較中,角度關系比距離的絕對值更重要,所以余弦距離可以用來衡量用戶對內容興趣的區分度。

如果以詞頻或詞向量作為特征,它們在特征空間的歐氏距離通常很大;如果用余弦相似度,兩者之間的夾角可能很小,所以相似度高。此外,在文本、圖像、視頻等領域,

余弦相似度在高維情況下仍然保持“相同時間1,正交時間0,相反時間-1”的性質,而歐氏距離的值受維度影響,範圍可變,含義模糊。

兩個等長字符串s1和s2之間的漢明距離被定義為將其中壹個字符串變為另壹個字符串所需的最小替換數。例如,字符串“111”和“1001”之間的漢明距離是2。

應用:信息編碼(為了增強容錯能力,碼間最小漢明距離要盡可能大)。