信息熵的度量

我們常說信息有用，那麽它的作用是如何客觀定量的體現出來的呢？信息的使用背後有理論依據嗎？

以上兩個問題，千百年來都沒有人給出很好的答案。直到1948年，香農在其著名論文《通信與數學原理》中提出了“信息熵”的概念，解決了信息的度量問題，量化了信息的作用。

沒有信息，任何公式和數字的遊戲都不能排除不確定性。這個簡單的結論非常重要。幾乎所有的自然語言處理、信息和信號處理的應用都是壹個消除不確定性的過程。

什麽是信息熵？

壹條信息的信息量與其不確定性直接相關。

比如我們要了解壹個非常非常不確定的事情，就需要知道很多信息。相反，如果妳已經對某件事有了更多的了解，妳就不需要太多的信息來把它說清楚。

所以從這個角度來說，信息量等於不確定性的量。

概率和信息熵；

例1:比如今天有人告訴妳，2019年冬天北京不會再有霧霾。這件事我們很不確定，因為在過去的五年裏，北京冬天沒有霧霾的日子很少。這時，為了了解這件事，妳需要查閱氣象資料、專家預測等。這是壹個用外部信息消除不確定性的過程。這件事越不確定，妳需要的外部信息就越多。這時候信息熵就很大了。

例2:相反，比如今天有人告訴妳，2019年冬天，北京將持續霧霾天氣。按照之前的認知，這是壹個不確定性極小的事件，也就是說，幾乎不需要外界信息。此時的信息熵很小。

如果把2019年冬天北京是否有霧霾看作壹個隨機變量，那麽上面的例子說明信息熵的度量取決於概率分布。

信息熵的定義:

？(公式-1)

其中是概率，的單位是。

為什麽呢？

假設有兩個獨立的隨機變量，它們同時出現的概率，即聯合概率？(公式2)

如果我們人為地想讓信息的度量滿足加減運算。也就是說，信息A和信息B之和滿足:A+B。

？(公式3)

很容易想到對公式的對數運算——1！

？-& gt；？？(公式4)

定義，稍微整理壹下公式-4得到公式-3。

信息熵的幾何理解；

從圖1可以看出:

概率越接近0(表示事件極有可能不發生)和概率越接近1(表示事件極有可能發生)，信息熵的值越小。

例:今天下雨的概率是p。

第壹種情況:當P=0時，表示今天下雨的可能性為0，事件為確定事件。這時，信息熵是:

第二種情況，當P=1時，說明今天下雨的可能性是1，這個事件也是確定事件。這時，信息熵是:

第三種情況:0

定義:

假設和是兩個隨機變量。我們想知道的是，假設我們知道了隨機分布，那麽我們就知道了熵:

現在假設我們還知道壹部分情況，包括和壹起出現的概率以及不同前提下的概率分布。條件熵被定義為:

？(公式5)

案例1:獨立時，見圖2:

第二種情況:依賴如圖3所示:

從圖2和圖3可以看出:

？(公式6)

換句話說，有了更多的信息，關於它的不確定性就降低了！

什麽是互信息？

條件熵告訴我們，當獲得的信息與要研究的事物相關時，可以幫助我們消除不確定性。當然，“關系”這個詞太模糊了。為了量化這種“關系”的大小，香農在信息論中提出了“互信息”的概念。

定義:

？(公式7)

實際上，互信息是隨機事件的熵和條件熵之差:

？(公式8)

從公式-8可以看出，所謂互信息量，就是在知道壹個的前提下，為消除另壹個的不確定性而提供的信息量。

什麽是相對熵？

相對熵和互信息壹樣，用於度量相關性。與互信息不同，相對熵用於度量兩個整數值函數的相似性。

定義:

？(公式9)

-對於兩個相同的函數，相對熵為0。

-相對熵越大，函數的微分越大。

-對於概率分布，如果所有值都大於0，相對熵可以度量兩個隨機分布的差異。

應該指出，相對熵是不對稱的:

？(公式-10)

為了消除不對稱性，詹森和香農提出了壹種新的計算方法:

？(公式-11)