當前位置:股票大全官網 - 工商資訊咨詢 - 信息熵的度量

信息熵的度量

我們常說信息有用,那麽它的作用是如何客觀定量的體現出來的呢?信息的使用背後有理論依據嗎?

以上兩個問題,千百年來都沒有人給出很好的答案。直到1948年,香農在其著名論文《通信與數學原理》中提出了“信息熵”的概念,解決了信息的度量問題,量化了信息的作用。

沒有信息,任何公式和數字的遊戲都不能排除不確定性。這個簡單的結論非常重要。幾乎所有的自然語言處理、信息和信號處理的應用都是壹個消除不確定性的過程。

什麽是信息熵?

壹條信息的信息量與其不確定性直接相關。

比如我們要了解壹個非常非常不確定的事情,就需要知道很多信息。相反,如果妳已經對某件事有了更多的了解,妳就不需要太多的信息來把它說清楚。

所以從這個角度來說,信息量等於不確定性的量。

概率和信息熵;

例1:比如今天有人告訴妳,2019年冬天北京不會再有霧霾。這件事我們很不確定,因為在過去的五年裏,北京冬天沒有霧霾的日子很少。這時,為了了解這件事,妳需要查閱氣象資料、專家預測等。這是壹個用外部信息消除不確定性的過程。這件事越不確定,妳需要的外部信息就越多。這時候信息熵就很大了。

例2:相反,比如今天有人告訴妳,2019年冬天,北京將持續霧霾天氣。按照之前的認知,這是壹個不確定性極小的事件,也就是說,幾乎不需要外界信息。此時的信息熵很小。

如果把2019年冬天北京是否有霧霾看作壹個隨機變量,那麽上面的例子說明信息熵的度量取決於概率分布。

信息熵的定義:

?(公式-1)

其中是概率,的單位是。

為什麽呢?

假設有兩個獨立的隨機變量,它們同時出現的概率,即聯合概率?(公式2)

如果我們人為地想讓信息的度量滿足加減運算。也就是說,信息A和信息B之和滿足:A+B。

?(公式3)

很容易想到對公式的對數運算——1!

?-& gt;??(公式4)

定義,稍微整理壹下公式-4得到公式-3。

信息熵的幾何理解;

從圖1可以看出:

概率越接近0(表示事件極有可能不發生)和概率越接近1(表示事件極有可能發生),信息熵的值越小。

例:今天下雨的概率是p。

第壹種情況:當P=0時,表示今天下雨的可能性為0,事件為確定事件。這時,信息熵是:

第二種情況,當P=1時,說明今天下雨的可能性是1,這個事件也是確定事件。這時,信息熵是:

第三種情況:0

定義:

假設和是兩個隨機變量。我們想知道的是,假設我們知道了隨機分布,那麽我們就知道了熵:

現在假設我們還知道壹部分情況,包括和壹起出現的概率以及不同前提下的概率分布。條件熵被定義為:

?(公式5)

案例1:獨立時,見圖2:

第二種情況:依賴如圖3所示:

從圖2和圖3可以看出:

?(公式6)

換句話說,有了更多的信息,關於它的不確定性就降低了!

什麽是互信息?

條件熵告訴我們,當獲得的信息與要研究的事物相關時,可以幫助我們消除不確定性。當然,“關系”這個詞太模糊了。為了量化這種“關系”的大小,香農在信息論中提出了“互信息”的概念。

定義:

?(公式7)

實際上,互信息是隨機事件的熵和條件熵之差:

?(公式8)

從公式-8可以看出,所謂互信息量,就是在知道壹個的前提下,為消除另壹個的不確定性而提供的信息量。

什麽是相對熵?

相對熵和互信息壹樣,用於度量相關性。與互信息不同,相對熵用於度量兩個整數值函數的相似性。

定義:

?(公式9)

-對於兩個相同的函數,相對熵為0。

-相對熵越大,函數的微分越大。

-對於概率分布,如果所有值都大於0,相對熵可以度量兩個隨機分布的差異。

應該指出,相對熵是不對稱的:

?(公式-10)

為了消除不對稱性,詹森和香農提出了壹種新的計算方法:

?(公式-11)