實驗設計食譜/第 3 章:完全隨機設計
這是一個關於雙因素,多水平實驗的示例食譜。它使用從“Cars.csv”中獲取的資料(一些原始資料資訊丟失,因此我們刪除了這些觀測值。)來確定車輛的年份或車輛製造的國家是否對車輛的馬力有任何影響。因素年份有 13 個水平,因素原產國有 3 個水平。這項研究不涉及隨機化,因為這個資料集描述了每種汽車型號的資訊。我們可以相信,在他們獲取汽車型號資訊之前,是隨機抽取的樣車。例如,對於豐田凱美瑞的資訊,是隨機抽取相同的型別汽車,進行測試,並計算型別資訊。這項工作中也不包括重複。重複是指重複實驗條件,以便能夠估計與現象相關的變異性。我們沒有樣本可以重複。進行方差分析,以確定車輛樣本之間馬力均值的差異是否是由車輛年份和原產國造成的。我們首先基於方差分析測試不同年份之間的馬力均值。該檢驗的零假設是每個年份的馬力均值相等。然後,我們進行單因素方差分析檢驗,得到 p 值 < 0.0001,因此我們拒絕零假設,並說明至少有一個馬力均值不等於其他均值。在第二個檢驗中,我們關注國家的因素,零假設是每個國家地區的馬力均值相等。然而,方差分析檢驗的結果表明,至少有一個馬力均值不等於其他均值 (p 值 < 0.0001)。最後,我們分析了馬力變化與年份和原產國的互動作用的結果,並獲得了 p 值 < 0.05。互動項可能對馬力均值有影響。進行 Tukey 的誠實顯著差異檢驗,以確定哪些馬力均值與其他均值顯著不同。 http://rpubs.com/maxwinkelman/32711
以下連結指向一個三因素,多水平分析。所使用的資料來自一項涉及數年內各州的交通事故死亡率、酒精和酒駕法律以及一般人口統計資訊的調查。在該研究中,我們對三個因素進行了方差分析,分別是最低法定飲酒年齡、該州是否強制執行對違規行為的監禁判決以及該州的人均個人收入,以確定它們是否對響應變數有影響,即該州的交通事故死亡率(每 10,000 人)。資料已從 R 中的“Ecdat”資料包獲取。目前尚不清楚資料是否已完全隨機收集。然而,對該資料的分析是在假設資料是隨機收集的情況下進行的。談到重複和重複測量,每個輸入變數的配置在資料中只出現一次,因此,沒有重複測量的證據。在分析過程中,所有資料都一起分析,因此也沒有分塊。在瞭解了資料的背景之後,資料分析分為三個步驟:(i)探索性資料分析(EDA),(ii)使用方差分析的假設檢驗,以及(iii)診斷和模型準確性檢查。 http://rpubs.com/Tothk2/DOERecipe3
在這項研究中,將進行一個雙因素,多水平實驗(使用 Lahman 的棒球資料庫),以檢視給定球隊在給定賽季中獲得的擊球次數或給定球隊在給定賽季中獲得的本壘打次數(或者,透過互動作用兩者都)是否對給定球隊在給定賽季中獲得的獲勝次數有統計學意義的影響。在資料集中,因素“H”指的是給定球隊在給定年份中獲得的擊球次數,因素“HR”指的是給定球隊在給定年份中獲得的本壘打次數。此外,此分析的響應變數在資料集中被稱為“W”,它表示給定球隊在給定年份中獲得的常規賽獲勝次數。為了確定這種顯著性水平,進行了方差分析,並計算了 Tukey 誠實顯著差異。
http://rpubs.com/howelb/46076<br\>
此分析是一個三因素多水平設計,它使用來自 CS-A 考試的資料。資料來自所有 50 個州,記錄了數年。但是,我們對這些資料進行子集分析,以分析“每位教師的產量”以及女性學生透過率對所有少數民族群體在該 CS 考試中的表現的影響。第三個因素是時期或每個連續年份。這個假設背後的理由是,隨著每一年過去,鑑於計算機在日常生活中的使用不斷增加,我們可以分析其對教育方面的影響,例如少數民族群體在 CS 考試中的表現。該實驗的設計更側重於方差分析檢驗以及 Tukey 的 HSD 檢驗。 http://rpubs.com/Uzma_1004/32868
以下連結指向一個雙因素,多水平資料分析。感興趣的資料是透過傅立葉變換紅外光譜實驗獲得的一系列吸光度值,用於評估生物材料製造後殘留溶劑的存在。實驗執行以隨機順序進行。每個處理有 11 個重複,分析中使用平均值。該分析使用固定效應模型,其中因素“處理”和“天數”解釋了資料中解釋的方差。該分析側重於方差分析,並透過使用 Tukey 的誠實顯著差異檢驗進行擴充套件,該檢驗確定了被分析的每個因素的每個水平之間的顯著差異。 http://rpubs.com/adamato/32887
以下檢驗是一個三因素,多水平資料分析。資料集從世衛組織網站獲取,其中包含有關香菸消費的資訊。此分析的目的是測試可能影響吸菸人口比例的三個可能因素,即區域、性別和受教育年限。方差分析還分析了它們組合的模型,以解釋吸菸比例的方差。Tukey 檢驗和其他模型檢查方法用於選擇和檢查模型的充分性。這種分析可能對未來減少吸菸具有實際意義。 http://rpubs.com/chenh16/32918
以下分析是對多因素,多水平方差分析。資料由世界衛生組織收集,檢視性別、國家、地區、收入群體和其他因素對死亡率(每 1000 人)的影響。在這個方差分析中,死亡率被作為響應變數,並設計了模型來分析哪些因素可能導致組之間的差異。然後使用 Tukey 檢驗來檢視組中不同處理水平之間的差異。透過模型充分性檢驗,確定資料不正常,因此不滿足方差分析所需的假設。因此,執行了 Kruskal-Wallis 檢驗,作為非引數雙向方差分析。 http://rpubs.com/braunj6/32931
以下連結指向一個雙因素,多水平實驗。資料集是來自 R 中 Ecdat 包的加州考試分數資料集。資料來自 1998 年和 1999 年的加州學校。在這個資料集中,有 17 個連續變數。對於這些實驗,觀察的兩個因素是連續變數:每名學生的計算機數量和師生比例。響應變數是學校的平均閱讀分數。由於資料集不包含加州的所有學校,我們可以假設學校是透過某種抽樣設計隨機選擇的。
方差分析檢驗用於分析平均閱讀分數的變化是否可能來自每名學生的計算機數量的變化或師生比例的變化。這個實驗的零假設是平均閱讀分數的變化不能來自每名學生的計算機數量的變化或師生比例的變化。備擇假設是變化可能來自每名學生的計算機數量的變化或師生比例的變化。然後,這個實驗用於檢驗假設。
使用了三種不同的方差分析檢驗。第一個方差分析檢驗用於確定平均閱讀分數的變化是否可能來自每名學生的計算機數量的變化。根據此檢驗的結果,拒絕零假設,並且可以透過隨機化以外的其他因素解釋平均閱讀考試分數,例如每名學生的計算機數量。第二個方差分析檢驗用於確定平均閱讀分數的變化是否可能來自師生比例的變化。根據此檢驗的結果,也拒絕了零假設,並且可以透過隨機化以外的其他因素解釋平均閱讀考試分數,例如師生比例。第三個方差分析檢驗用於確定平均閱讀分數的變化是否可能來自每名學生的計算機數量和師生比例的互動作用的變化。根據此檢驗的結果,可以將平均閱讀考試分數歸因於每名學生的計算機數量或師生比例。關於每名學生的計算機數量和師生比例的互動作用,總方差不可能是隨機化以外的任何因素的結果。 http://rpubs.com/tranc3/32941
以下分析是對多因素,多水平方差分析。資料由大都市加州地區的收集人員收集,並試圖根據許多因素提供一些關於該地區空氣質量的見解。在這個方差分析中,空氣質量是響應變數,被測試的因素包括該地區的地理位置和降雨量。然後使用 Tukey 檢驗來驗證模型並檢查模型的充分性。該檢驗確定了被分析因素的每個水平之間的顯著差異。 http://rpubs.com/macchm/32950
以下連結分析了一組關於棒球捕手的統計資料,並考察了 3 個單獨捕手統計資料對其球隊防禦率或失分的影響。研究的重點統計資料包括失誤 (E)、接殺 (PO) 和盜壘 (SB)。這些因素代表了捕手可能直接影響對方球隊得分屬性。進行了一項多因素多水平方差分析檢驗。建立了多個模型來考察影響,然後對模型進行檢查以確保它們符合假設。Tukey 範圍檢驗分析了每個水平上每個因素的所有組合,以檢驗各組均值之間是否存在差異。還分析了各組之間的互動作用,以尊重因果關係和相關性的概念:http://rpubs.com/svoboa/33092
本研究探討了關於高階選修課程透過率的資料,以評估各種協變數的影響。主要目標是評估兩個因素,學校數量和考試數量,是否會影響每個州的考試透過總數。進行了初步方差分析以確定處理對因變數的影響。然後,對兩個因素進行獨立效應檢驗,並使用區組技術估算互動效應。此外,透過檢查正態性、擬合值與殘差以及 TukeyHSD 圖來評估模型的充分性。最後,構建互動圖以觀察因素之間任何潛在的互動效應。https://rpubs.com/manzat/32405
該研究收集了資料,以考察鑽石的顏色和淨度對鑽石價格的影響。該研究包括一項多因素多水平方差分析;這在已收集的資料上進行。首先要注意的是,因為我們沒有參加實驗(資料收集),所以不能假設完全隨機化設計。完全隨機化設計包括進行測試/收集資料的隨機順序。這通常透過在收集資料之前隨機分配所有將要進行的實驗的樣本順序來完成。資料的組織方式似乎表明它不是隨機的;儘管它也可能意味著它是在收集後格式化的。鑽石的價格由 4C(克拉、淨度、顏色和切工)定義,分析是對其中兩個因素進行的。由於它包含在資料集中,因此也可以將克拉作為因素納入,但是出於教育目的,可能認為兩個因素就足夠了。在構建 aov 模型後,可以看出,淨度因素的 p 值接近 0,並且具有相當大的 F 值。因此,可以接受備擇假設(淨度和價格之間存在關係)。然而,對於顏色,p 值為 0.095,F 值(1.9)更小。當檢驗互動作用時,p 值很小為 0.016,F 值為 1.85,這表明可能存在影響價格的互動作用。根據使用的閾值,結果表明鑽石的淨度級別和/或淨度與顏色之間的互動作用可能有助於解釋鑽石定價的差異。http://rpubs.com/serena049/doehw3
以下對完全隨機化實驗設計的分析使用雙因素方差分析,以考察母親種族和產前檢查頻率對嬰兒出生體重的影響。這尤其重要,因為低出生率的後果是嬰兒死亡率和出生缺陷率高。189 個樣本資料提供了關於母親在懷孕期間的行為的資訊,這是新生兒健康的強有力預測指標。預測變數或效應被認為是吸菸習慣、飲食習慣和產前保健水平。這種情況下的興趣因素是種族和產前保健水平,分別由變數 RACE 和 FTV(孕早期醫生檢查次數)描述。生成了條形圖,比較了對檢查次數做出反應的人的種族。響應變數(出生體重,用 BWT 表示)以克為單位測量,並呈現描述性統計資料。生成了一個隨機實驗,用於檢驗 RACE 或 FTV 是否可以預測 BWT 的假設。箱線圖顯示白人新生兒的 BWT 範圍很廣,而黑人新生兒和“其他”新生兒的範圍更窄,並且有一個異常值。QQ 圖的擬合假設資料具有一定的正態性,但結果並不完美。RACE 和 FTV 之間可能存在輕微的互動作用,但效應並不立即明朗。可以拒絕零假設,該假設提出隨機化本身就可以解釋 BWT 的差異。RACE 是一個顯著因素,P 值為 0.0071,但未發現 FTV 或 FTV*RACE 之間的互動效應顯著。Tukey 比較突出顯示了白人母親和“黑人/其他”類別之間平均出生體重的差異。繪製殘差驗證了模型關於正態性的假設。http://rpubs.com/konraz/39538
2016 年秋季專案
以下連結考察了“Ecdat”包中的 Stars 資料集。Star 資料集用於考察“小班規模對學習的影響”,包含 8 個變數和 5748 個觀測值。在觀測值中隨機選擇了 4000 個觀測值,並將課堂型別(3 個水平)、教師經驗(2 個水平)、性別(2 個水平)、免費午餐支援(2 個水平)定義為因素。分析的響應變數是學生的數學分數,它也是一個連續變數。為了分析主要效應和互動效應,零假設設定為:“小班的學習不受課堂型別、學生性別、教師經驗、免費午餐資格以及這些因素的任何雙向互動作用的影響。”方差分析結果表明,所有主要效應以及一些互動效應都具有統計顯著性。主要效應和互動效應已計算並使用 pid 包呈現。使用 QQ 圖和殘差與擬合變量圖對正態性和同質性進行評估,確認了模型的充分性。http://rpubs.com/unnuk/216193
此連結考察了 R 中可用的“Ecdat”包中的名為 wages 的資料集。該資料集是 7 年間對 595 個戶主進行調查的結果,總共 4165 個觀測值。在最初的 11 個因素中,選擇了 4 個具有 2 個水平的因素:藍領、南部、性別和工會制定的工資。生成了主要圖和互動圖,並使用單因素或雙因素方差分析檢驗結果的統計顯著性。三個主要效應和六個互動效應中的四個具有顯著性,儘管一些互動效應很小。http://rpubs.com/mtwassick/217369
以下連結考察了 100 個有趣的資料集中的全球健康資料。在全球健康資料中,選擇了“心理健康”,其中包括心理健康治理(3 個因素:立法、計劃和政策)、人力資源(1 個因素:精神科醫生)和自殺率(1 個響應變數)。該資料集是為考察心理健康護理(治理和人力資源)對自殺率的影響而收集的,包含 5 個變數和 160 個觀測值。我們使用 4 個具有兩個水平的因素來分析它們對自殺率的主要效應和互動效應。立法和精神科醫生(主要效應)在 1% 的顯著性水平上具有統計顯著性。然而,在本實驗中,5% 的顯著性水平上沒有統計上顯著的互動效應。http://rpubs.com/bokjh3/217510
本實驗考察了多種童年經歷對未來工資的影響。本實驗的資料來自一項關於工資、教育和大學附近距離的研究。資料收集於 1976 年的美國個人。該資料集是 Ecdat 包中的 Schooling 資料集。該資料集中有 3010 個觀測值和 28 個變數。本實驗考察了多種童年經歷對未來工資的影響。在本實驗中,研究了四個因素,每個因素都有兩個水平。研究的因素包括一個人是否在都會統計區(人口密度相對高的地區)長大,水平為是和否;一個人是否在距離 4 年制大學很近的地方長大,水平為是和否;一個人在 14 歲時是否有圖書館證,水平為是和否;一個人在 14 歲時是否有單親母親,水平為是和否。響應變數是工資的對數,是一個具有正態分佈的連續數值。本研究介紹了實驗設計、探索性資料分析,並檢驗了正在考察的四個主要效應和六個互動效應。所有四個主要效應在 5% 的顯著性水平上都具有顯著性,其中一個互動效應在該水平上具有顯著性。http://rpubs.com/shamuswheeler/217564
在本研究中,我們打算使用 Kaggle 上的 Titanic 資料集對泰坦尼克號倖存者進行統計分析。我們在這裡要解決的主要問題是,一個人是否存活與其乘客等級、年齡、性別和/或他們開始旅程的港口之間是否存在統計上顯著的關係。http://rpubs.com/prasanna_date/217915