跳轉到內容

實驗設計食譜/第7章:重取樣方法

來自華夏公益教科書,開放書籍,開放世界

正在分析的資料集是美國農業部標準參考國家營養資料庫的第 27 版。其中包含 8,618 種不同的食物,但為了進行方差分析,該列表將根據食物名稱的首字母縮寫為 25 個級別。請注意,沒有食物名稱以字母“X”開頭。ANOVA 用於確定食物的 Short_Description 對該食物的蛋白質含量(克)的影響。然後使用自舉法和蒙特卡羅模擬進行重取樣,以克服正態性的限制性假設。[1]


以下分析是在關於婚外情的資料集上執行的一次因子 ANOVA。資料集包含 601 個條目,旨在確定宗教和一個人有多虔誠是否會影響他們婚外情的數量。實驗分為兩個部分,第一部分是使用線性模型的常規 ANOVA,第二部分涉及使用蒙特卡羅模擬和自舉法進行重取樣,以執行二次 ANOVA 檢驗。[2]


此分析是針對提供少數民族在計算機科學考試中表現的資料集進行的一次因子多級 ANOVA。從初始結果(ANOVA 測試)中,我們決定了重取樣技術,並再次對模擬資料執行 ANOVA。發現適用於此實驗的重取樣技術是“自舉法”。初始資料集和自舉版本的結果均未能拒絕實驗問題設定在分析開始時所提出的零假設。[3]


此食譜中將進行的實驗旨在確定 NFL 球員體重的變化是否可以歸因於 NFL 球隊的變化。將執行具有 95% 置信區間的方差分析,以確定球員所屬的球隊是否會影響其體重。在執行 ANOVA 後,將實施“蒙特卡羅”模擬和自舉法,以確定重取樣的影響。[4]


此實驗設計食譜使用包含美國犯罪率的資料集,以演示如何正確使用重取樣技術來確定用於方差分析 (ANOVA) 的資料集的實際分佈。這樣做,ANOVA 的結果更準確,因為該測試不依賴於其固有的正態性假設。[5]


此食譜正在檢查 Ecdat 包中西班牙家庭的食物預算份額。使用此資料集,我們正在測試具有多個級別的單個因子的單一響應變數模型。[6]


以下測試是關於計算機大小對計算機價格的影響。在此測試中,我們使用 ANOVA 來調查價格的方差是否可以解釋為螢幕尺寸的方差。為了使用更計算的方法來仔細檢查 ANOVA 的有效性並提高其準確性,我們使用了 Bootstrap 重取樣技術。事實證明,分析和理論 F 分佈與基於所用資料和重取樣的 ANOVA 非常不同,表明資料可能不是正態分佈的。[7]


以下食譜分析了美國失業資料,以及失業的各種原因如何解釋響應變數的變化 - 失業持續時間(以周為單位)。此食譜使用了一路四級方差分析 (ANOVA)。還使用了各種重取樣技術來評估模型的充分性。[8]


以下分析是在船舶事故資料集中進行的。對單個響應執行了一因子多級 ANOVA 檢驗。自舉法被用作重取樣技術來檢查模型的充分性。[9]


在本研究中,使用 [使用“Benefits”資料框(巢狀在名為“Ecdat”的 R 包中)包含有關名為“失業保險福利水平對領取的影響”的研究出版物的相關資料(McCall, B.P. 1995)] 執行了一因子多級實驗,以檢視與藍領工人失業原因相關的因素是否對州失業率(以 % 為單位)具有統計學意義。在資料集中,因素“joblost”指的是藍領工人失業的原因。此外,此分析的響應變數在資料集中被稱為“stateur”,它表示分析中的州失業率。在確定此顯著性水平時,執行 ANOVA 分析(帶和不帶透過自舉進行的重取樣)並計算 Tukey 誠實顯著差異。[10]


在此食譜中,對 Ecdat 資料包中的 Earnings 資料集進行了分析。為了執行此分析,執行 ANOVA 分析(帶和不帶透過自舉進行的重取樣)。[11]


此食譜的目的是使用重取樣方法重複 ANOVA 並比較結果。用於此實驗的資料集是 R 中“Ecdat 包”中的“Star”,用於探索小班規模對學習的影響。在本研究中,我們重點關注班級型別對學生數學總分的影響。對原始資料和重新取樣資料(透過自舉法)執行 ANOVA,並證明結果是一致的。[12]


以下食譜檢查了來自 Edcat 包名稱的 Crime 資料集,該資料集位於 100 多個有趣資料集網頁列表中。檢查北卡羅來納州的地區,以檢視它們是否可以解釋一次因子多級 ANOVA 中犯罪率的變化。還執行了重取樣 (蒙特卡羅和自舉) ANOVA,然後檢查了模型的充分性。還討論了模型假設被打破時的意外情況。[13]


以下分析使用單因子 ANOVA 和重取樣來檢查紐約合唱團四種聲部中平均歌手身高(以英寸為單位)的變化。[14]


1998-1999 年的加州測試成績資料集被用於比較不同年級跨度(K-6 或 K-8)地區的學生人均支出。資料按縣進行分組,以減少可能發生在州不同地區之間地區的社會經濟差異的影響。一個用於計算 Cohen's d 的函式被用來選擇響應變數。G*Power 軟體被用來生成 alpha = 0.05 和 power = 0.9 的理想樣本量。使用此樣本量的 ANOVA 顯示樣本之間存在統計學上的顯著差異,但結果被證明不穩健,因為違反了資料的正態性假設。使用了兩種替代零假設統計檢驗的方法:重取樣和繪圖加誤差條,來分析資料。[15]

此食譜分析了工會代表對 1980-1987 年受僱於 12 個行業中的年輕男性工人的時薪的影響。由於行業可能會影響工資,因此該因素在 ANOVA 測試中被阻塞。這導致使用隨機不完全區組設計來確定和分析工會代表主要影響的顯著性。使用了 50 的樣本量,以及 0.05 的 alpha 和 0.05 的 beta。ANOVA 測試輸出給出了一個 p 值,表明兩個組(工會和非工會代表)之間存在統計學上的顯著差異。此外,還使用了兩種替代零假設統計檢驗 (NHST) 的方法。使用 t 統計量和效應量進行重取樣,並計算顯著性區間,以幫助驗證和證實 NHST 的結論。[16]

(KU) BudgetFood,從 Ecdat 包中選擇,代表了 1980 年“西班牙家庭食物預算份額”的橫截面,而資料的來源主要來自應用計量經濟學雜誌。家庭在食品上花費的總支出的百分比是資料集的連續響應變數。參考人的性別(收入所有者)被選為自變數,並且該因素用城鎮規模變數進行分組。此設計的零假設將是:“家庭在食品上花費的總支出百分比不受參考人性別的影響。”為了檢驗我們的零假設,首先使用 G*Power 定義樣本量,並且已根據計算的樣本量隨機重新組織資料以建立平衡設計。已經執行了 ANOVA,並且在置信區間和重新取樣方法被用作零假設統計檢驗的替代方法後。[17]

(MR) Housing 資料集,在 Ecdat 包中找到,顯示了有關房價的資料 - 實際售價、臥室和浴室的數量、房屋是否有車道以及房屋是否位於城鎮的“首選區域”,僅舉幾例。進行了分析以確定是否有車道對房屋售價的影響,並按房屋是否位於城鎮的“首選區域”進行分組。零假設是車道或區域對房屋售價沒有影響。這首先使用 ANOVA 進行檢查,然後實施了重取樣技術,然後使用 G*Power 進行功效分析。[18]

(M Wassick) 來自 Ecdat 包的 Star 資料框是對學習進行的一項研究,該研究取自 1985-1989 年對班級風格對學習影響的研究。學習透過測試分數進行評估,並根據各種因素進行分析。此分析將使用分組變數sex和測試變數classk,即班級風格。班級風格對學生成績的影響將透過多種方式進行測試。首先,將使用零假設進行 ANOVA,即 classk 對成績沒有影響,備擇假設是班級風格對學生成績有顯著影響。此外,將使用 CI 評估和自舉 ANOVA 分析對假設進行測試和佐證。[19]

(Y Ding) 本實驗使用 R 語言中的 “Ecdat” 包中的資料。這是一個數據框,包含 60 種汽車的里程數和品牌國家等引數。本實驗的目的是測試汽車價格隨里程數變化的變動情況。里程數和國家是分類的獨立變數,而因變數價格是連續的。實驗執行是隨機的,干擾因素(國家)被阻斷。為了節省時間和開支,我們在實驗中使用了一個樣本量,足以獲得里程數的影響大小。在里程數對汽車價格沒有影響的零假設下,我們進行了不同的分析,假設資料中的誤差服從正態分佈。然而,根據結果,我們基於該假設的分析可能不準確,應該考慮另一個模型。 [20]

(DR) 一項基於溫莎市住房資料的研究被用於測試影響城市地區房屋銷售價格的因素。使用了零假設檢驗技術,其中響應變數是價格。研究中分析了兩個因素:浴室數量和社群偏好。置信區間和重抽樣技術被用作替代方案,以檢測不同浴室數量組之間的顯著差異。選擇的顯著性水平為 0.05,功效為 0.90。結果表明,當從 1、2 或 3 個浴室改變時,房屋價格存在顯著差異。 [21]

(LZ) 在本研究中,我們使用包含來自美國 1993 年至 1995 年的 6259 個觀測值的資料。該資料集中包含的價格、硬體狀況、製造商等資訊。我們的主要目的是測試 CD-ROM 安裝是否對價格有顯著影響。我們在分析中使用了阻斷。我們認為螢幕尺寸不是影響價格的主要因素,我們對這個因素不感興趣,所以樣本被螢幕尺寸阻斷。透過設定 alpha=0.05 和 beta=0.05,我們生成了 84 個樣本量。方差分析表明,根據我們選擇的樣本,存在顯著差異。最後,我們使用兩種替代方法來測試結果。 [22]

(MS) 在這個例子中,我們使用了包含來自 1976 年至 1872 年的 4165 個觀測值的資料。該資料集中包含的對數工資、工會工人、婚姻狀況、性別、個人是否為黑人等資訊。我們的主要目的是測試個人是否為黑人對對數工資有顯著影響。分析中使用了阻斷。還使用了方差分析、重抽樣和效應量。 [23]

(Bok, Joonhyuk) 在 Ecdat R 包中的一個數據集裡,我們選擇了“Diamond”,它可以用來預測和計算鑽石價格。在 Diamond 資料中,'colour' 和 'clarity' 被選為因素,分別代表鑽石的特性,分別有 6 個級別和 5 個級別。我們選擇 'price' 作為響應變數。在選擇了一些分類的獨立變數和一個連續的響應變數後,我們對未阻斷的獨立變數 colour 進行了零假設統計檢驗實驗。將使用隨機不完全區組設計來研究顏色對價格的影響。將使用兩個因素的方差分析來分析顏色在阻斷清晰度時的影響。因此,我們只考慮主效應,不考慮互動效應。此外,我們利用 G*Power 來確定樣本量,假設 Alpha=0.05、Beta=0.05、功效=1-Beta=0.95 和效應量=0.03467091。除了零假設統計檢驗 (NHST) 之外,我們還將進行替代評估、重抽樣統計和置信區間。 [24]

(SW) 歐洲共同體家庭面板於 1994 年對比利時的時薪進行了研究。比利時工資資料集包含 1472 個個人的觀測值,包括時薪、教育水平、工作經驗年限和性別等資訊。我選擇的兩個分類獨立變數 (IV) 是 **性別** 和 **educ**,分別代表個人的性別和教育水平。連續的因變數 (DV) 或響應變數是 **wage**,代表時薪。該分析使用阻斷變數 **educ**,即教育水平。這樣做是為了消除可能來自不同教育水平個體之間工資差異的噪音。將使用多種方法測試性別對時薪的影響。首先,將使用零假設(男性和女性的工資之間沒有顯著差異)進行方差分析。此外,重抽樣統計和繪圖加誤差條程式被用作 NHST 的替代方案。 [25]

(AZ) 本研究分析了 1929 年至 1947 年按行業和年份劃分的公司利潤資料。資料來自經濟分析局,以十億美元表示。在本實驗中,兩個因素(分類的獨立變數)是行業和年份,而連續的因變數是公司利潤。行業包含 12 個不同的級別:經調整的公司利潤、金融、非金融、世界其他地區、聯邦儲備銀行、其他、製造業、耐用品、非耐用品、運輸和公用事業以及批發貿易零售貿易汽車。年份包含 19 個級別(從 1929 年到 1947 年的每一年)。本實驗使用隨機區組設計。一個變數(年份)將被阻斷,假設將在第二個變數(行業)上進行檢驗。首先將進行箱線圖探索性分析。將進行方差分析,以及零假設統計檢驗的替代方案:置信區間和重抽樣。實驗將以模型驗證結束。 [26]

(AV) 來自 ecdat 包中與婚外情有關的資料集。1977 年耶魯大學進行的一項研究收集了 601 個觀測值。因素包括性別、個人是否有孩子、宗教信仰、年齡、婚姻年限等等。實驗考察了兩個獨立變數,並使用了阻斷。G*Power 用於確定樣本量,蒙特卡羅模擬用於隨機化和統計重抽樣。Tukey 檢驗是 NHST 的另一個替代方案。Cohen 的 D 也用於確定效應量。 [27]

(FO) 觀察婚外情的資料,我們進行了測試,以檢視婚姻自我“評分”對“婚外情次數”的影響,同時針對“孩子”這一單獨因素進行阻斷。本研究使用方差分析來檢驗假設,然後考察研究方差分析結果的重要性。在此之後,展示了替代假設檢驗,並進行了分析,以確定該因素是否確實對因變數產生了影響。 [28]

(PD) 用於本專案的資料是 R 的 Ecdat 包中的 VietNamH 資料集。該資料描述了越南家庭的總支出、醫療支出和食品支出。為了進行我們的分析,我們選擇的響應變數是“總支出”,我們選擇的兩個獨立變數是家庭主人的性別(男性、女性)和家庭是否位於城市或非城市地區。事實證明,家庭是否位於城市或非城市地區對家庭支出有顯著影響。另一方面,家庭主人的性別似乎沒有顯著影響。 [29]

(TE) 本研究分析了美國 42 個州過去 20 年的香菸銷售資料。我們評估了年份和地區這兩個因素對以每人香菸盒數衡量的銷售量的影響。我們使用方差分析以及假設檢驗來估計主效應。我們驗證了模型的充分性,並通過蒙特卡羅模擬進行重抽樣以控制正態性假設。結果表明,地理位置對香菸銷售有顯著影響。 [30]

參考文獻

[edit | edit source]

28. A. Ziemba http://rpubs.com/ziemba/225886 29. P. Date http://rpubs.com/prasanna_date/225890

華夏公益教科書