輸入並執行神奇的命令%matplotlib inline,並刪除圖例邊框。
數據集介紹:
該數據集的特征包括美國的49個州、它們的區域、統計年、統計月、平均日照、平均日最高氣溫、平均日最高熱指數(平均日最高熱指數)、平均日降雨量(平均日降水量)和平均日地表溫度(Avg日地表溫度)。
每個功能的年度間隔為:
導入數據並查看前5行。
篩選美國主要地區的主要氣候指數,並通過sns.distplot接口繪制指數分布圖。
根據運行結果:
美國各地的太陽光分布趨勢大致相同,有兩個明顯的峰值(強光照和弱光照)。這是因為非赤道國家受地球公轉的影響,四季中的光照強度會呈現壹定的周期性變化規律;
從地理位置可以看出,東北地區的光槽明顯低於其他三個地區;
美國各地的日平均最高氣溫差異很大,東北部和中西部的趨勢大致相同,氣溫平臺期較長,峰值顯著。西部地區溫和期最長,全年最高氣溫相對穩定;南方的分布相對更集中;
日平均陸面溫度與最高氣溫相近,但不同的是其低溫區分布較少。
西部最高熱指數分布與中西部地區壹致,氣溫溫和,東北部熱指數高,南部低;
西部降雨量明顯較小,南部和東北部大致相同,中西部地區相對較多。
結合地理知識做壹個總結:
中國東北和中西部大部分地區屬於溫帶大陸性氣候,四季分明,夏季悶熱,雨量較多。
西部屬於溫帶地中海氣候,全年氣候溫和,幹燥少雨,夏季氣候溫和,最高氣溫相對穩定。
南部沿海地區全年氣候溫暖,夏季炎熱,雨水充沛。
按月計算美國各地區降雨量的平均值和標準差,以平均值壹倍的標準差繪制各地區降雨量誤差圖。
根據運行結果:
在大多數夏季月份,西部地區的降雨量比其他地區少得多;
中國西部冬季的月降雨量高於夏季。
中西部地區屬於典型的溫帶大陸性氣候,秋冬季降雨量減少,春夏季降雨量增加。
南部地區傾向於海洋性氣候,年降雨量相對平均。
妳需要安裝joypy軟件包。
日平均最高氣溫變化趨勢
通過joypy包的joyplot接口,可以繪制具有堆疊效應的垂直分布曲線,每四年可繪制1980-2008的日平均最高氣溫,並標記25%和75%分位數。
根據運行結果:
1980-2008年期間,美國日平均最高氣溫分布的低溫區逐漸增大,而高溫區逐漸減小,分布趨於更加集中;
在1980-2008年期間,美國日平均最高氣溫的25%分位數和75%分位數有壹點偏差,但並不明顯。
日平均降雨量變化趨勢
以同樣的方式處理降雨數據並檢查輸出結果。
篩選出加州和紐約的日平均降雨量數據,通過plt.hist接口繪制降雨量月分布圖。
根據運行結果:
加州的降雨量大部分集中在0-1毫米的範圍內,很少有大雨。相比之下,紐約雨量充沛,平均日降雨量在2-4毫米之間
在累加效應下,直方圖會被大部分細節覆蓋,表達聚集和分散效應的箱線圖可能是這類問題的更好選擇。
通過sns.boxplot界面繪制加州和紐約月降雨量分布的箱線圖。
從箱線圖中,我們可以清楚地比較兩個州每個月的降雨量分布,我們可以看到集中程度。例如,加州7月的降雨量集中在0.1-0.5毫米的狹窄範圍內,這表明此時幾乎不會有大雨;我們也可以看到離散的情況。例如,在1月份的加州,箱形圖的箱形部分分布很廣,在其上方約10 mm處有壹個離散點,表明此時加州可能會有偶爾的大雨。
從視覺上看,擺動誤差折線圖更美觀和簡單。在“美國各地降雨量的月分布”實驗中,所有類別標簽的X位置都放在同壹個地方,導致誤差線高度重疊。通過調整X坐標位置,可以緊湊地排列要比較的序列。
從輸出結果可以看出,加州冬季降雨的不確定性更強。每年11月至次年3月有強降雨現象,雨量多而少(誤差線長)。
以上實驗都是在研究單個變量的分布,但往往,我們想知道任意兩個變量的聯合分布有什麽特征。
核密度估計是研究這類問題的主要方法之壹。sns.kdeplot接口通過高斯核函數計算兩個變量的核密度函數並以等高線的形式繪制核密度。
根據運行結果:
在高溫區和少雨期(夏季高溫少雨),加州有壹個明顯的高密度分布區;
紐約州高溫區和低溫區都有壹個高密度分布區,不同溫度區的降雨量分布相對均勻。
通過plt.hist2d界面可視化美國各地的降雨量和氣溫。
根據運行結果:
美國最高密度的日平均高溫區和降雨區分別約為78°F(約25°C)和2.2 mm,屬於相對舒適的生活氣候區。
全美國降雨量和氣溫的關系-核密度估算
在上述實驗的基礎上,通過sns.rugplot接口分別在X軸和Y軸上繪制核密度估計的壹維分布圖,可以在壹個繪制平面上同時獲得聯合分布和單變量分布的特征。
美國各地降雨量和氣溫的關系-分散分布和直線分布
Sns.jointplot界面通過網格以子圖的形式繪制單變量分布,通過散點圖展示雙變量關系,這也是展示數據分布的好方法。
上面兩個實驗研究了二元分布的可視化,下面研究了三個變量聚合結果的可視化。
通過sns.heatmap接口可以實現透視數據的可視化。其原理是為透視結果的值賦予不同的色塊以可視化其值,並通過顏色條工具量化其值。
上述兩個實驗直觀地顯示了每個州的日最高氣溫中位數隨年份的變化趨勢,從圖中看沒有明顯變化。
讓我們通過t檢驗來檢查統計數據是否有顯著差異。Stats.ttest_ind接口可以輸出1980和2010中主要氣候指標的顯著性檢驗統計量和P值。
從運行結果可以看出:
測試結果拒絕了降雨量相等的原始假設,即美國的降雨量在1980和2010之間是不同的,並且日平均日照和日平均最高氣溫相等的原始假設沒有被拒絕,這表明氣溫沒有發生顯著變化。