統計/測試資料/compare-prop2
外觀
< 統計
以下是一個來自2004年美國總統大選的執行示例。應該清楚的是,民意調查的選擇以及誰領先與概念的介紹無關。根據新聞週刊(連結)於10月2日進行的一項民意調查,如果今天舉行選舉,47%的1013名已登記選民將投票給約翰·克里/約翰·愛德華茲。45%的人會投票給喬治·W·布什/迪克·切尼,2%的人會投票給拉爾夫·納德/彼得·卡梅霍。
- 在Microsoft Excel程式中開啟一個新的空白工作簿。
- 在單元格A1中輸入克里的報告百分比*p*(0.47)。
- 在單元格B1中輸入布什的報告百分比*q*(0.45)。
- 在單元格C1中輸入受訪者人數*N*(1013)。這可以在大多數關於民意調查的負責任報告中找到。
- 在單元格A2中,完整複製並貼上下一行文字並按Enter鍵。這是Microsoft Excel對如上所述的差異標準誤的表示式。
- =sqrt(A1*(1-A1)/C1+B1*(1-B1)/C1+2*A1*B1/C1)
- 在單元格A3中,完整複製並貼上下一行文字並按Enter鍵。這是Microsoft Excel對基於給定邏輯的正態分佈的克里領先機率的表示式。
- =normdist((A1-B1),0,A2,1)
- 不要忘記百分比將以小數形式表示。當然,如果A1和B1相同,百分比將為0.5或50%。
以上文字可能足以進行必要的計算,但它無助於理解所涉及的統計檢驗。人們經常認為統計學只是用複雜公式進行計算的問題。
所以問題是:令p為投票給克里的已登記選民的人口比例,q類似地表示投票給布什的人口比例。在一個有n=1013個受訪者的民意調查中,要求受訪者說明他們的選擇。一定數量的K個受訪者表示選擇克里,一定數量的B個受訪者表示投票給布什。K和B是隨機變數。K和B的觀測值為k和b(數字)。所以k/n是p的估計值,b/n是q的估計值。隨機變數K和B服從引數為n、p、q和1-p-q的三項分佈。克里會領先於布什嗎?也就是說:p>q嗎?為了研究這個問題,我們進行了一項統計檢驗,其零假設為
反對備擇假設
- .
什麼是合適的檢驗統計量T?我們取
- .
(在上面的計算中,取,這將導致相同的計算。)
我們必須說明T在零假設下的分佈。我們可以假設T近似服從正態分佈。
很明顯,它在H0下的期望值為
- .
它在H0下的方差並不那麼明顯。
- .
我們使用樣本分數而不是總體分數來近似方差
- .
標準差s將近似為
- .
在樣本中,我們發現了一個值為 t = k - b = (0.47-0.45)1013 = 20.26 的 T。對於 T 的較大值,我們將拒絕零假設而支援備擇假設。所以問題是:20.26 應該被認為是 T 的一個大值嗎?標準將是這個結果的所謂 p 值。
- .
這是一個非常大的 p 值,所以沒有任何理由拒絕零假設。