為了度量壹個事件的不確定性,我們首先要用壹個隨機變量來表示壹個隨機事件。如果我們知道的分布,那麽我們可以用它來寫熵的定義。
解釋
它是壹個概率分布,理論值是[0-1]。但是,沒有定義的時候,就會遇到問題。我們知道:
所以添加後可以保證隨時建立。
比如用來表示我們扔硬幣後,硬幣是上下顛倒還是上下顛倒。(我們這裏用的是二進制,也就是)
(1)如果這枚硬幣是公平硬幣,那麽
(2)如果這枚硬幣是不公平的,那麽
(3)如果這枚硬幣是不公平的,那麽
(4)如果這枚硬幣是不公平的,那麽
如果取點比較密集,可以畫下圖():
(1)系統的不確定性最高時。如果壹個人猜測壹枚硬幣的正反兩面,此時此刻他是最不確定的。
(2)到時候系統的不確定性比較高,對於猜硬幣的人來說,把握比較大。
(3)當熵為0時,系統的不確定性完全消失。熵為0的系統沒有不確定性。
剛才講了,熵的基數=2的單位叫做比特,我們經常接觸的信息的單位也是比特。這不是巧合。在某種程度上,兩者是同壹事物的兩面。這要從信息的本質說起:
信息是用來消除不確定性的(熵)。為了消除1比特的熵,需要1比特的信息。
用上面的例子,當正負硬幣的賠率相等時,要想知道答案,需要1比特的信息。當熵為0時,我們可以在沒有任何信息的情況下知道答案。
我們剛才說的熵就是信息熵,在熱力學中,還有熵的概念,兩者都是用來描述系統混沌的程度。在本文開頭的圖片中,左杯中的水是以冰的形式存在的,並不是均勻分布在杯中。此時熵相對較低,對應的是信息熵。我們可以說,這個時候,我們更容易判斷壹個水分子在杯子裏的位置。右邊的杯子裏,冰已經變成了水,水分子的活動空間增大了,水分子在杯子裏的分布更加均勻,所以此時熵會更高。