第壹章
什麽是統計學?如何理解統計學和統計數據的關系?
答:統計學是壹門收集、整理、顯示和分析統計數據的科學。統計學和統計數據之間有著密切的關系。統計學所闡述的統計方法來源於對統計數據的研究,其目的在於對統計數據的研究。沒有統計數據,統計方法和統計就失去了意義。
2.簡要說明統計數據的來源。
答:統計數據來源於兩個方面:直接數據:調查、觀察和直接組織的科學實驗。在社會經濟管理領域,主要通過統計調查獲得,如普查和抽樣調查。間接數據:從報紙、書刊雜誌、統計年鑒、互聯網等渠道獲得。
3.簡單解釋壹下抽樣誤差和非抽樣誤差。
答:統計調查誤差可分為非抽樣誤差和抽樣誤差。非抽樣誤差是由調查過程中各方面的失誤造成的,理論上是可以避免的。抽樣誤差是利用樣本推斷總體時產生的誤差,不可避免,但可以控制。
4.回答:(1)有兩個種群:品牌A的所有產品和品牌b的所有產品。
(2)變量:口味(比如可以用10分表示)
(3)匹配樣本:從兩個品牌的產品中抽取65,438+0,000瓶,分別由65,438+0,000名消費者進行評分,形成匹配樣本。
(4)從匹配樣本的觀察值推斷兩個品牌的相對味道。
第二章,統計數據描述
思考問題
1描述了頻率分配表的編制過程。
答:有兩個步驟:
根據統計研究的目的,用分組標記對數據進行分組。
按質量標誌分組時,每個具體的演出可以視為壹組,也可以幾個演出合為壹組,視組的粗細而定。
按數量標記分組可分為單項分組和組間距分組。
單項分組以每個變量值為壹組;組間距分組以變量的範圍(區間)為壹組。
統計分組應遵循“不重不漏”的原則
將數據分發給各組,統計各組的次數,編制頻數分布表。
2.解釋洛倫茲曲線及其用途。
答:洛倫茨曲線(Lorenz curve)是20世紀初美國經濟學家、統計學家洛倫茨根據意大利經濟學家帕累托提出的收入分配公式繪制的壹條描述收入和財富分配性質的曲線。洛倫茨曲線可以觀察和分析國家和地區收入分配的平均程度。
3.壹組數據的分布特征可以從哪些方面來衡量?
答:數據分布的特征壹般可以從集中趨勢、分散程度、偏度、峰度等方面來衡量。常用的指標有均值、中位數、眾數、極差、方差、標準差、離差系數、偏度系數和峰度系數。
4如何理解均值在統計學中的地位?
答:平均值是將所有數據平均後計算出的壹般水平的代表值,數據信息提取最充分。
它具有良好的數學性質,是數據誤差相互抵消後客觀事物必然性的數量特征的反映,在統計推斷中表現出優良的特性,因此均值在統計學中具有非常重要的基礎地位。極值的影響是其使用中的壹個問題。
5對於比率數據的平均,為什麽要用幾何平均?
答:比值數據往往表現出的特征是,續積就是總比值,這與壹般數據的和就是總不同,所以需要幾何平均。
6.簡述眾數、中位數、均值的特點和應用。
答:眾數、中位數、均值是分布集中度趨勢的三個主要衡量指標。眾數和中位數是從數據分布形狀和位置的角度考慮的,而均值是從所有數據計算出來的。眾數很容易計算,但並不總是存在,所以應用很少。中位數直觀,不受極端數據影響,但數據信息沒有得到充分利用;均值數據提取的信息最豐富,但受極值數據的影響。
7為什麽要計算離散系數?
答:比較兩組數據的差異時,由於受變量值水平和計量單位的影響,方差和標準差不能直接比較,需要計算離散系數作為比較指標。
練習題:
1.頻率分布表如下:
服務質量等級評價的頻率分布
服務質量等級(頻率)頻率百分比的家庭數量
a 14 14
b 21 21
32 32
d 18 18
e 15 15
總計100
條形圖(略)
2 (1)采用等距分組:
N=40全距離=152-88=64組距離為10。
組數為64/10=6.4,選擇6組。
頻率分布表如下:
40家企業按產品銷售收入分組。
按銷售收入分組
企業數量(萬元)
頻率
(%)向上積累,向下積累。
企業編號頻率
100以下
100~110
110~120
120~130
130~140
140以上5
九
12
七
四
3 12.5
22.5
30.0
17.5
10.0
7.5 5
14
26
33
37
40 12.5
35.0
65.0
82.5
92.5
100.0 40
35
26
14
七
3 100.0
87.5
65.0
35.0
17.5
7.5
總計40 100.0 ——
(2)某局40家企業分組表。
按銷售收入(萬元)頻率分組的企業數(%)
先進企業
好企業
壹般企業
落後企業11
11
九
9 27.5
27.5
22.5
22.5
總計40 100.0
3使用等距分組。
全範圍=49-25=24
N=40,若組間間隔為5,則組數為24/5=4.8,選5組。
頻率分布表:
按銷售額(萬元)頻率(天數)分組
25-30
30-35
35-40
40-45
45-50 4
六
15
九
六
總計40
四..(1)稍微排序。
(2)頻率分布表如下:
100燈泡使用壽命的非頻率分布
按使用壽命(小時)分組燈泡數量(僅)頻率(%)
650~660 2 2
660~670 5 5
670~680 6 6
680~690 14 14
690~700 26 26
700~710 18 18
710~720 13 13
720~730 10 10
730~740 3 3
740~750 3 3
總計100
直方圖(略)。
(3)莖葉示意圖如下:
65 1 8
66 1 4 5 6 8
67 1 3 4 6 7 9
68 1 1 2 3 3 3 4 5 5 5 8 8 9 9
69 0 0 1 1 1 1 2 2 2 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 9 9
70 0 0 1 1 2 2 3 4 5 6 6 6 7 7 8 8 8 9
71 0 0 2 2 3 3 5 6 7 7 8 8 9
72 0 1 2 2 5 6 7 8 9 9
73 3 5 6
74 1 4 7
5等距分組
N=65全距=9-(-25)=34取組距為5,組數=34/5=6.8,取7組。
頻率分布表:
按溫度分組的天數
-25 - -20
-20 - -15
-15 - -10
-10 - -5
-5 - 0
0 - 5
5 - 10 8
八
10
14
14
四
七
總計65
7 (1)莖葉圖如下:
a級樹幹b級
數據數量樹葉數量
0 3 59 2
1 4 4 0448 4
2 97 5 122456677789 12
11 97665332110 6 011234688 9
23 98877766555554443332100 7 00113449 8
7 6655200 8 123345 6
6 632220 9 011456 6
0 10 000 3
A班考試成績分布相對集中,平均分高;B班的考試成績分布比A班更分散,平均分比A班低。
8.方框圖如下:(請自行分析特性)
9.(1) = 274.1(萬元);Me = 272.5QL = 260.25;QU =291.25 .
(2)(萬元)。
10.企業A的平均成本= 19.45438+0(元),
企業B的平均成本= 18.29(元);
原因:雖然兩家企業的單位成本相同,但單位成本較低的產品在企業B的產量中所占比重較大,從而拉低了總平均成本。
11.= 426.67(萬元);
= 116.48(萬元)
13(1)離散系數,因為它消除了不同組數據級別的影響。
(2)成人身高的離散系數:
兒童組身高的離散系數:;
因為兒童身高的離散系數大於成人,說明兒童身高的離散程度比較大。
14.表格給出了壹些主要的描述性統計數據。
方法a、方法b和方法c
平均165.6平均128.73平均125.53
中位數165中位數129中位數126
模式164模式128模式126
標準差2.13標準差1.75標準差2.77
極端範圍8極端範圍7極端範圍12
最小值162最小值125最小值116
最大值170最大值132最大值128
首先要考慮平均指數,平均指數相近時要考慮離散指數。
應選擇方法A,其平均值遠高於其他兩種方法,離散度與其他兩組相近。
15.(1)風險的度量是壹個不斷發展的問題。在經典金融理論中,標準差主要作為壹種統計量來反映,而在現代金融中,則采用在險價值。
(2)無論采用何種風險度量,商業股票都較小。
(3)個人對股票的選擇與其風險偏好等因素有關。
第四章
1.總體分布是指總體中每個個體上某個變量的值所形成的分布。它是未知的,是統計推斷的對象。容量為n的樣本是從總體中隨機選取的,其分布稱為樣本分布。由樣本的壹個函數形成的統計量的分布稱為抽樣分布(如樣本均值和樣本方差的分布)。
2.在重復抽樣和非重復抽樣下,樣本均值的標準差為:
所以非重復抽樣下的標準差小於重復抽樣下的標準差,兩者之差就是壹個調整系數。
3.解釋中心極限定理的含義
答:在抽樣推斷中,中心極限定理指出,無論總體服從什麽分布,只要其數學期望和方差存在,當樣本量足夠大時,樣本均值就趨於正態分布。中心極限定理為均值的抽樣推斷奠定了理論基礎。
第四章,參數估計
簡述評估估計者質量的標準
答:評價估計量質量的主要標準是:公正性、有效性和壹致性。設總體參數的估計量有和,如果有,稱為無偏估計量;如果和是無偏估計量且小於,則比更有效;如果樣本大小為0,則是壹致估計量。
2.解釋區間估計的基本原理。
答:總體參數的區間估計是根據壹定置信水平下樣本統計量的抽樣分布,計算出用樣本統計量正負抽樣誤差表示的估計區間,使該區間包含總體參數的概率為置信水平。置信水平反映了估計的可靠性,而區間長度反映了估計的準確性。
3.用95%的置信水平解釋置信區間的含義。
答:總體參數固定未知,置信區間為隨機區間。置信水平為95%的置信區間意味著所有構造的置信區間中約95%包含相同條件下總體參數的真值。
4.簡述樣本量與置信水平、總體方差和容許誤差的關系。
答:以估計總體均值時確定樣本量的公式為例:
樣本大小與置信水平、總體方差和容許誤差成正比。
2.解答:問題含義:樣本量為
如果
如果
解決方案:來自問題:
雖然采用非重復抽樣,但由於樣本比例很小(小於0.5%),其抽樣誤差與重復抽樣下的抽樣誤差大致相同,用重復抽樣的抽樣誤差公式計算。
對於大樣本,顯著性水平下的置信區間為:
當,置信區間為(2.88,3.76)
當,置信區間為(2.80,3.84)
當,置信區間為(2.63,4.01)
5解法:假設距離服從正態分布,
平均距離的95%置信區間= (7.18,11.57)。
7解:從題意上看:。
因為都超過5了,大樣本。
(1)總體中贊同率顯著性水平的置信區間為
那時,
置信區間為(50.7%,77.3%)
(2)如果允許誤差不超過10%,置信水平為95%,則選擇的家庭數應為:
8.這個問題需要檢驗兩個總體的方差是否相等:
在5%的顯著性水平上,
,不要拒絕原來的假設。
兩個總體方差是相同的。
(1)
即(1.93,17.669)
(2)
即(0.27,19.32)
11.大樣本情況
(1)90%的置信度
(3.021%,16.979)
(2)在95%的置信度下
(1.684%,18.316%)
12.解答:問題可以計算:
兩個總體方差比的95%置信區間為:
14.解:從題的意思來說:
必須抽取的客戶數量為:
第五章,假設檢驗
思考問題
1.1.了解原假設和備擇假設的含義,總結建立原假設和備擇假設的幾個常用原則。
答:原假設通常是研究者要收集證據反對的假設;替代假設通常是研究人員想要收集證據來支持的假設。建立兩個假設的原則是:
(1)原假設和備擇假設是壹個完整的事件組。(2)壹般先確定備選假設。然後確定最初的假設。(3)等號“=”總是放在原假設上。(4)假設判定帶有壹定的主觀色彩。(5)假設檢驗的目的主要是收集證據來否定原來的假設。
2.第壹類和第二類錯誤是什麽?它們發生的概率有什麽關系?
答:I類錯誤是指原假設為真時所犯的錯誤,概率為。第二類錯誤是指原假設為假時產生的錯誤,其概率為。其他條件不變時,增減;增加,減少。
3.顯著性水平是什麽?它對於假設檢驗決策的意義是什麽?
答:假設檢驗中犯第壹類錯誤的概率稱為顯著性水平。顯著性水平通常是人們為了檢驗結果的可靠性而事先給定的壹個值,但確定顯著性水平等於犯第壹類錯誤的概率,而犯第二類錯誤的概率是不確定的,所以“拒絕原假設”結論的可靠性是確定的,而“不拒絕原假設”結論的可靠性是難以控制的。
4.P值是多少?P值檢驗和統計檢驗有什麽區別?
答:P值是原假設為真時,檢驗統計量小於或等於根據實際觀測樣本數據計算的檢驗統計量的概率。p值常用來衡量觀察數據與原始假設之間的不壹致性。統計檢驗用預先確定的顯著性水平來控制犯第壹類錯誤的上限,P值可以有效地補充所提供的關於檢驗可靠性的有限信息。價值檢驗的優點是提供了更多的信息,使人們可以選擇某壹水平來評價結果是否具有統計顯著性。
5.什麽是統計意義?
答:壹個檢驗具有統計顯著性(拒絕原假設),意味著這樣的(樣本)結果不是偶然得到的,或者說不可能是偶然得到的。意義的意義在於“非偶然”
練習
3.解決方案(1)第壹種錯誤是供應商提供的薯片平均重量不低於60克,但店家拒絕並投訴。
(2)第二個錯誤是供應商提供的薯片平均重量不足60克,但店家並未拒收。
(3)客戶會認為第二類錯誤很嚴重,而供應商會認為第壹類錯誤更嚴重。
4.解決方案:提出壹個假設
已知的
測試統計數據如下
拒絕規則是:如果,拒絕;否則,不要拒絕。
From:,拒絕,以為改進工藝可以提高其平均實力。
方案五:設為每個家庭每天看電視的平均時間(小時)。
要測試的假設是:
調查的樣本是:
大樣本下的檢驗統計量為:
在0.01的顯著性水平上,右手檢驗的臨界值為
因為,不,可以認為每個家庭每天看電視的平均時間增加了。
6.解決方案:提出壹個假設
已知:
檢驗統計量
拒絕,可以判斷電視使用壽命方差明顯大於VCR。
7.解決方案:提出壹個假設:
,獨立大樣本,檢驗統計量為:
和2.33因為拒收,平均組裝時間的差異不等於5分鐘。
8.解決方法:匹配小樣本,提出假設:
計算者:,測試統計數據為
不拒絕,就不能認為廣告提高了潛在購買力的平均分。
9.解決方案:提出壹個假設:
已知:
對於大樣本,測試統計數據為:
但因為拒絕,可以認為信息追求者的被動休假率明顯低於非信息追求者。
10.解決方案:提出壹個假設:
根據問題計算:
測試統計數據為:,和
所以我拒絕了,認為兩臺機器之間的方差存在顯著差異。
相關和回歸分析
思考問題
相關分析和回歸分析有什麽區別和聯系?
答:相關與回歸分析是研究變量間不確定性統計關系的重要方法。相關性分析主要判斷兩個或兩個以上變量之間是否存在相關性,分析變量之間的相關形式和程度。回歸分析主要是衡量具有相關性的現象之間數量變化的規律性。但兩者在研究目的和變量處理上有明顯的區別。都是統計學方法,不能揭示現象之間的本質關系。
3.什麽是總體回歸函數和樣本回歸函數?兩者有什麽區別?
答:以簡單線性回歸模型為例。總體回歸函數是將總體因變量的條件期望表示為自變量的函數。人口回歸函數是確定的和未知的,是回歸分析的對象。樣本回歸函數是根據樣本數據估計的因變量和自變量之間的函數關系:或。回歸分析的目的是用樣本回歸函數估計總體回歸函數。兩者的區別在於總體回歸函數未知但確定,而樣本回歸函數隨樣本波動而變化;總體回歸函數的參數是確定的,而樣本回歸函數的系數是隨機變量。總體回歸函數中的誤差項是不可觀測的,而樣本回歸函數中的殘差項是可觀測的。
4.什麽是隨機誤差項和殘差?兩者有什麽區別?
答:隨機誤差項表示自變量以外的變量對因變量的影響,是不可觀測的,通常是假設的。殘差項是指因變量的實際觀測值與樣本回歸函數計算的估計值之間的偏差,該偏差是可觀測的。兩者的區別在於反射的意義不同,可觀測性不同,它們的關系可以是:
5.為什麽用最小二乘法估計參數時要對模型做壹些基本假設?
回答:最小二乘法只是壹種尋找估計量的方法,它找到的估計量是否具有良好的性質取決於模型的壹些基本假設。只有在壹系列經典假設下,最小二乘估計量才是藍色的。
15 ..多元回歸中為什麽要修正可確定系數?
答:在壹定的樣本量下,隨著模型中自變量個數的增加,可確定系數會增加,模型的擬合度會增加,但會損失自由度,從而降低推斷的準確性。因此,需要用自由度來修正可確定性系數,用修正後的可確定性系數來判斷增加自變量的適當性。
16.多元線性回歸中,為什麽T檢驗後還要做方差分析和f檢驗?
答:T檢驗只是檢驗單個系數的顯著性。由於自變量之間關系復雜,需要對回歸系數進行整體檢驗。方差分析和f檢驗是檢驗回歸方程總體統計顯著性的方法。
練習
解:設簡單的線性回歸方程為:
使用OLS估計:
回歸系數的經濟意義:銷售收入每增加654.38+0萬元,銷售成本增加0.786萬元。
可確定的系數為:
回歸標準誤差:
檢驗統計數據如下:
所以它明顯不為零。
預測:
95%的預測區間是:
即(664.579,674.153)
2.
(1)
(2)負相關
(3)
(4)估計斜率為-7.0414,這意味著航班正點率每增加1%,百萬旅客投訴量就會減少:7.0414 * 0.01 = 0.070414。
(5)如果,那麽倍
3.
y的多元回歸結果
匯總措施
倍數R 0.9521
r平方0.9065
調整直角坐標0.8910
Est 3.3313的StErr
方差分析表
SourcedfSSMSFp-值
解釋了3 1937.7485 645.9162 58.2048 0.0000
原因不明18 199.7515 11.0973
回歸系數
系數標準誤差值p值下限上限
常數32.9931 3.1386 10.5121 0.0000 26.3991 39.5870
x 1 0.0716 0.0148 4.8539 0.0001 0.0406 0.1026
x2 16.8727 3.9956 4.2228 0.0005 8.4782 25.2671
x3 17.9042 4.8869 3.6637 0.0018 7.6372 28.1711
4.
5.
7.解決辦法
(1)樣本量:
(2)
(3)
(4),
(5) F檢驗:
整體對Y有顯著影響,但個體對Y的貢獻無法確定。