其他分布都是特殊的,只有正態分布是正常的,壹般的,從名字上,我們也能感受到它的重要性。
有趣的是正態分布不僅重要而且簡單,就像壹條對稱的倒鐘形曲線,中間很高,兩邊下降,像個鼓起的小山包。
再正態分布的曲線裏,橫坐標代表隨機變量的取值範圍,越往右,隨機變量的值就越大,縱坐標,則代表概率大小,最底下的概率是0,越往上概率越大。這樣曲線上隨便找壹點,確定他的橫坐標,縱坐標,我們就知道了這個值出現的概率是多少。
因為這條曲線左右是對稱的,所以中間的最高點,就代表平均值出現的概率最大,數據最多,而兩邊陡峭下降,就意味著約靠近平均值,數據越多,越遠離平均值,數據就越少。
當然,我們不能停留在這種粗糙的描述上,要理解正態分布,必須了解他的三個數學性質。
1,均值就是期望
也就是說,正態分布中間最高點的橫坐標,不僅代表隨機變量的平均值,而且還等於他的數學期望,這是經過數學證明的,在概率論中,正態分布的均值和期望是壹個意思,是壹件事兒的兩種表達。
我們前面講過,數學期望代表長期價值,而現在平均值又是數學期望,也就是說,在正態分布中,平均值就是代表隨機事件的價值。
為什麽我們會用高考的平均成績衡量壹所高中的教學質量,為什麽我們會有平均收益率來衡量壹家基金公司的收益,平均值就代表這個隨機事件的價值。
只有在正態分不裏,平均值才有這個意義,如果不是正態分布,平均值就沒啥意義了,比如地震,誰也沒聽說過平均強度和平均損失這樣的說法吧。
2,極端值很少
還記得正態分布的圖嗎?越靠近平均值,這條曲線越高,出現的概率越大,越遠離平均值,這條曲線就越低,出現的概率就越小。這說明,正態分布大多數的數據都集中在平均值附近,極端值很少。
極端值很少這句話有兩個含義:意識極端值出現的概率很低,二是極端值對均值影響很小,也因此,正態分布非常穩定,拿人的身高來說吧,它大體服從正態分布,所以即便姚明加入,我們的平均身高也不會有太大變化。
3,標準差決定胖瘦
同樣是正態分布圖,有的曲線要矮胖壹些,有的曲線要高瘦壹些,為什麽
因為標準差不同,標準差就是方差的平方根,也能用來描述隨機變量的波動情況。正態分布中,標準差越大,數據的波動越劇烈,鐘形曲線就越矮胖,標準差越小,數據越集中,鐘形曲線就越高瘦。
為什麽說正態分布簡單,因為在正態分布中,平均值等於期望,決定這條曲線的最高點,方差決定胖瘦,決定曲線的彎曲度。簡單的兩個數據,就確定了這條曲線的形狀。
不同的正態分布曲線可以比較嗎?
可以的,
第壹,只有均值不同,能比較好壞。
第二,只有標準差不同,能比較波動
第三,標準差和均值都不同,能比較專業和業余