以上兩個問題,千百年來都沒有人給出很好的答案。直到1948年,香農在其著名論文《通信與數學原理》中提出了“信息熵”的概念,解決了信息的度量問題,量化了信息的作用。
沒有信息,任何公式和數字的遊戲都不能排除不確定性。這個簡單的結論非常重要。幾乎所有的自然語言處理、信息和信號處理的應用都是壹個消除不確定性的過程。
什麽是信息熵?
壹條信息的信息量與其不確定性直接相關。
比如我們要了解壹個非常非常不確定的事情,就需要知道很多信息。相反,如果妳已經對某件事有了更多的了解,妳就不需要太多的信息來把它說清楚。
所以從這個角度來說,信息量等於不確定性的量。
概率和信息熵;
例1:比如今天有人告訴妳,2019年冬天北京不會再有霧霾。這件事我們很不確定,因為在過去的五年裏,北京冬天沒有霧霾的日子很少。這時,為了了解這件事,妳需要查閱氣象資料、專家預測等。這是壹個用外部信息消除不確定性的過程。這件事越不確定,妳需要的外部信息就越多。這時候信息熵就很大了。
例2:相反,比如今天有人告訴妳,2019年冬天,北京將持續霧霾天氣。按照之前的認知,這是壹個不確定性極小的事件,也就是說,幾乎不需要外界信息。此時的信息熵很小。
如果把2019年冬天北京是否有霧霾看作壹個隨機變量,那麽上面的例子說明信息熵的度量取決於概率分布。
信息熵的定義:
?(公式-1)
其中是概率,的單位是。
為什麽呢?
假設有兩個獨立的隨機變量,它們同時出現的概率,即聯合概率?(公式2)
如果我們人為地想讓信息的度量滿足加減運算。也就是說,信息A和信息B之和滿足:A+B。
?(公式3)
很容易想到對公式的對數運算——1!
?-& gt;??(公式4)
定義,稍微整理壹下公式-4得到公式-3。
信息熵的幾何理解;
從圖1可以看出:
概率越接近0(表示事件極有可能不發生)和概率越接近1(表示事件極有可能發生),信息熵的值越小。
例:今天下雨的概率是p。
第壹種情況:當P=0時,表示今天下雨的可能性為0,事件為確定事件。這時,信息熵是:
第二種情況,當P=1時,說明今天下雨的可能性是1,這個事件也是確定事件。這時,信息熵是:
第三種情況:0
定義:
假設和是兩個隨機變量。我們想知道的是,假設我們知道了隨機分布,那麽我們就知道了熵:
現在假設我們還知道壹部分情況,包括和壹起出現的概率以及不同前提下的概率分布。條件熵被定義為:
?(公式5)
案例1:獨立時,見圖2:
第二種情況:依賴如圖3所示:
從圖2和圖3可以看出:
?(公式6)
換句話說,有了更多的信息,關於它的不確定性就降低了!
什麽是互信息?
條件熵告訴我們,當獲得的信息與要研究的事物相關時,可以幫助我們消除不確定性。當然,“關系”這個詞太模糊了。為了量化這種“關系”的大小,香農在信息論中提出了“互信息”的概念。
定義:
?(公式7)
實際上,互信息是隨機事件的熵和條件熵之差:
?(公式8)
從公式-8可以看出,所謂互信息量,就是在知道壹個的前提下,為消除另壹個的不確定性而提供的信息量。
什麽是相對熵?
相對熵和互信息壹樣,用於度量相關性。與互信息不同,相對熵用於度量兩個整數值函數的相似性。
定義:
?(公式9)
-對於兩個相同的函數,相對熵為0。
-相對熵越大,函數的微分越大。
-對於概率分布,如果所有值都大於0,相對熵可以度量兩個隨機分布的差異。
應該指出,相對熵是不對稱的:
?(公式-10)
為了消除不對稱性,詹森和香農提出了壹種新的計算方法:
?(公式-11)