跳轉到內容

實驗設計配方/第 8 章:部分因子設計

來自華夏公益教科書

部分因子設計

所分析的資料集包括 403 名患者的潛在 2 型糖尿病醫學指標資料。使用部分因子設計,實驗將測試 6 個因素中的哪些因素表明對 2 型糖尿病發病的易感性,該易感性透過響應變數糖化血紅蛋白百分比來衡量。世界衛生組織建議使用至少 6.5% 的糖化血紅蛋白閾值來確定 2 型糖尿病的存在。由於實驗設計的性質 (2^k),6 個預測變數被型別轉換為因子並簡化為兩個水平,用於方差分析模型。這是透過將大於和小於列均值的值分別定義為“1”和“-1”來完成的。[1]

本實驗設計配方採用包含 64 個總實驗執行的資料集,並分析響應變數中相對於六個因素的方差,每個因素具有兩個水平。完成此操作後,將建立 1/2 部分的部分因子設計,並再次分析資料。這樣做是為了展示部分因子設計的正確使用方法以及 R 包 FrF2。[2]

以下配方分析了特定車輛引數對燃油里程 (mpg) 的影響。分析的資料集包含 6 個因素,每個因素包含兩個水平,產生總共 64 個執行。最初執行方差分析以確定任何因素的變異是否對燃油里程的變異有影響。之後,將使用現有資料集建立部分因子設計,並執行第二次方差分析以確定對統計結果的影響。 http://rpubs.com/maxwinkelman/42704

這是一個 2^k-1 (在這種情況下 k=6) 設計,它涉及建立具有正好 2 個水平的部分因子設計。資料是涉及材料強度的大型資料集的子集。我們只考慮混凝土混合物的成分和強度。自變數是用於製造用於各種建築應用(建築物和橋樑)的混凝土混合物的各種成分(在這種情況下僅考慮 6 種)。混凝土混合物的“強度”是響應變數。 http://rpubs.com/Uzma_1004/42659

以下分析的資料是關於房價和可能影響房價的因素。我們應用部分因子設計策略,並測試它是否可以獲得與完全因子設計相同的結果。這是一個 2^k-1 設計,其中有 6 個因素 (k=6),即是否有車道、娛樂室、完全裝修的地下室、燃氣供暖、中央空調以及是否位於城市的首選社群。比較方差分析和模型充分性檢查結果,似乎部分因子設計能夠在一定程度上反映完全因子設計的結果。 http://rpubs.com/chenh16/42734

以下配方是對涉及交通事故死亡資料和人口統計資訊以及駕駛相關法律的資料集進行方差分析。除了對一般線性模型的傳統方差分析外,還建立並使用了部分因子模型。該模型是 2^6 因素設計,僅分析了 32 個執行 (2^(6-1))。零假設是響應變數交通事故死亡率與因素無關。[3]

在本研究中,使用從“失業保險福利水平對領取福利的影響”(McCall, B.P. 1995)收集的資料,進行了一個六因素、兩水平實驗,以觀察是否是白人、接受超過 12 年的學校教育、是男性/女性、已婚、有孩子或以前申請過失業保險福利對州失業率 (以 %計) 有統計學意義的影響。在確定這種顯著性水平時,執行了方差分析,計算了 Tukey 誠實顯著差異,並生成了部分因子設計 [2^(6-1)]。[4]

本配方正在檢查 Ecdat 包中的藍領工人失業情況。我們正在檢視 6 個不同的因素(每個因素有 2 個水平)如何影響替代率。- Cheryl Tran, http://rpubs.com/tranc3/42909

以下配方是對 Ecdat 包中的 Computers 資料集進行分析。這是一個 2^k-1 部分因子設計,其中 k = 6。目標是測試測試結果是否會產生相同的結果,無論是否進行部分因子分解。方差分析和模型充分性技術用於確定統計結果的影響。- Matthew Macchi http://rpubs.com/macchm/44747

本配方使用 Ecdat 包中的資料。資料集本身包含個人在一年內前往醫生的次數觀察結果。所討論的一些因素包括種族、性別、受教育年限、個人的感知健康狀況、就業狀況和婚姻狀況。為了檢視除了隨機化之外的因素是否可以解釋個人之間醫生就診頻率的差異,完成了方差分析。在方差分析之後,生成了 2^(k-1) 部分因子設計。 http://rpubs.com/braunj6/42823

本專案的目的是建立一個具有 6 個因素的 2 級半部分因子設計。用於本實驗的資料集是 R 中“Ecdat 包”中的“Benefit”,用於探索 1972 年藍領工人的州失業率的影響因素。結果表明,部分因子設計有助於大幅減少估計時間和成本,並且能夠保持從完全因子設計中生成的部分結果。我們的結果表明,州失業率的變化不能僅用樣本隨機化來解釋。- Wei Zou[5]

以下分析使用部分因子設計上的方差分析來檢查幾個物理化學因素如何影響紅酒的感知質量。[6]

在以下實驗中,分析了 Ecdat 包中的 Somerville 資料集。資料基於觀察結果,例如他們是否支付年度費用或參加滑雪,這些觀察結果來自訪問索默維爾湖的個人。除了基本的探索性資料分析、方差分析模型和模型充分性檢查外,還使用了新的包 FrF2。建立了 2^(k-1) 或半部分設計。在本配方的例子中,我們使用 k=6,產生 32 個執行。每個因素都有 2 個水平 (1 或 -1)。[7]

2016 年秋季專案在此

Michael W - 以下實驗分析了 R 中 Ecdat 包中的 OFP 資料集。實驗的目的是研究 4 個因素對受試者前往醫生辦公室的次數的影響。使用 FrF2 計算了 2^6-3 設計,其中 6 個因素是透過將兩個 3 級因素分解為 2 級因素並將 2 級因素保持原樣而建立的。分析了設計,並計算了主效應和混雜。主效應的大小和方差分析用於確定最終模型中的包含。結果表明,2 個因素是顯著的,而另外 2 個因素則不顯著,並且模型存在一些偏離正態性的情況,這表明還有其他因素可以改進模型。[8]

Bjarke H - 本實驗分析了 Ecdat 包中的 Star 資料集。主要關注的是 4 個因素,其中 2 個因素具有 3 個水平。這兩個 3 級因素分解為四個 2 級因素,並使用 FrF2 來構造部分因子設計的計劃矩陣以及混雜結構。主效應和互動效應在方差分析 (ANOVA) 中估計。 http://rpubs.com/bjarke1/project3

Kristen C - 本實驗分析了 Ecdat 包中的 Housing 資料集。該資料集由 1987 年溫莎 546 套房屋的價格和其他房屋變數的觀察結果組成。我們將重點關注的四個自變數是:浴室 (3 級)、樓層 (3 級)、全地下室 (2 級) 和車道 (2 級),響應變數是:價格。實驗設計將每個三級因素合併為兩個二級因素。使用方差分析估計主效應和互動效應,並透過繪製殘差來驗證模型。 http://rpubs.com/Kristencole3/234231

Molly R - 本實驗分析了來自 Ecdat 包的健康保險資料集。本實驗分析了妻子每週工作的小時數,作為她是否被丈夫的健康保險覆蓋、她是否透過工作獲得健康保險、她的種族(黑人、白人或其他)以及她的地區(南部、西部、中北部)的函式。分數階乘設計將兩個三水平因素分解為四個兩水平因素,使其成為一個 2^6 設計,近似於一個 2^3 設計。分析發現,丈夫和妻子的健康保險因素是顯著的,以及他們是否是白人,以及他們是否住在西部地區。然而,資料集不符合正態性假設,因此應進行進一步分析以確認這些因素,並檢查別名雙因素互動作用。[9]

Kaan U - 使用 (2^6-3) 分數階乘設計分析了 ECDAT 包中的住房資料集。為該設計選擇了兩個兩水平因素(完整完成的地下室和房屋是否位於首選區域)和兩個三水平因素(房產的佔地面積和臥室數量)。透過此初步篩選分析,我們發現所有因素均為顯著因素。但是,使用這些發現對完整資料集進行建模不完全符合正態性假設,需要進一步分析。 http://rpubs.com/unnuk/234307

Joonhyuk Bok - 在 Ecdat R 包中的資料集裡,我們選擇了“Mathlevel”,這對於預測 SAT 數學成績會很有用。在 Mathlevel 資料中,'language'、'sex'、'physiccourse' 和 'chemistcourse' 被選為因素,這些因素可以解釋 SAT 數學成績的結果,並且分別具有 2 個水平、2 個水平、3 個水平和 3 個水平。'sat' 被選為響應變數。為了減少達到適當結論所需的計算能力和執行次數,進行了分數階乘設計。具有 3 個水平的因素將被分解為具有 2 個水平的因素,以便計算獲得適當資料所需的必要資料。將評估分數階乘設計的結果,以確定來自更有限的分數設計的真實資料量。使用方差分析計算主效應和互動效應。我們將展示如何確定實驗設計的生成器 I。 http://rpubs.com/bokjh3/234088

Mike D. - 使用 FrF2 R 包,使用 2^(6-3) 分數階乘設計分析了由三個熱門子版塊(r/science、r/politics、r/news)中頂級 Reddit 帖子組成的資料集。本次分析的目的是確定哪些因素(如果有)導致帖子點贊數與總票數百分比之間存在顯著差異。為從資料集中進行取樣開發了一種樹狀排序演算法。在構建線性模型並進行方差分析後,發現沒有一個主效應在統計學上是顯著的。提供了基於模型假設和分數階乘設計限制的解釋,以及分數階乘設計的別名結構和生成器的解釋。[10]

Clare D. - 本實驗考察了可能影響罪犯刑期長度的因素。超過 3,000 名在州立監獄和聯邦監獄服刑的囚犯提供了個人和背景資訊,這些資訊與他們的刑期長度(以月為單位)一起收集。在本實驗中,我們將使用 26-3 分數階乘設計來估計四個因素對囚犯刑期的主要影響。其中兩個因素是 3 水平因素,將分解為兩個 2 水平因素。該設計有 8 個實驗執行,我們能夠從這些執行中估計響應變數刑期長度的初步模型。然後將該模型與對完整資料集進行方差分析檢驗的結果進行比較。[11]

Alexis Z. - 本實驗研究了 2001 年北卡羅來納州 1450 名新生兒的響應變量出生體重,該變數對應於四個因素。所討論的因素是:嬰兒的性別(2 個水平)、母親是否吸菸(2 個水平)、孩子的種族(3 個水平)和妊娠週數(4 個水平)。該研究從探索性箱線圖分析開始。接下來,進行了分數階乘設計以研究 64 個執行中的資料;該設計進一步減少到 1/8 分數階乘設計。計算了主效應,所有因素似乎都具有顯著效應;然而,由於這是一個解析度 III 設計,因此這些效應與互動作用是別名的。仍然建立了一個線性模型,並且該模型非常適合。最終,應該考慮包含 2fi 的模型,並且應該採用進一步的統計方法,因為並非所有設計執行都在資料集中表示。[12]

Trilce 在本報告中,我們評估了來自加州大都市區的空氣質量資料,以評估社會經濟和地理特徵對這些地區空氣汙染的影響。開發了分數階乘設計,並使用線性模型來估計各種協變數的影響。[13]

Yage Ding 本實驗研究了藍領工人的性別、膚色、年齡和工作年限對州失業率的影響。由於因素膚色和性別具有 2 個水平,因素年齡和工作年限具有 3 個水平。分數階乘設計用於該實驗的設計。首先將所有因素轉換為 2 水平因素。然後,我們透過計算探索性主效應和使用原始資料集進行方差分析來確定設計的預期效應。儘管我們發現 2 個主效應和 1 個互動作用效應可能是顯著的,但我們的有限資源不允許我們使用總共八個隨機執行的實驗執行來估計所有這些效應,以揭示這些因素和互動作用的影響。我們只能估計預期主效應,在本實驗中,這些主效應與 2 因素互動作用效應是別名的。正如方差分析的結果所表明的那樣,沒有一個主效應能夠解釋州失業率的變化。用於進行實驗的資料集來自 R 包“Ecdat”。[14]

Munira S 本實驗展示了男性的健康狀況、種族、居住地和婚姻狀況對每小時工資的對數的影響。資料集是 R 中 Ecdat 包中的 Males 資料集。分數階乘設計用於實驗的設計。所有因素都轉換為 2 水平因素。使用線性模型和方差分析確定了期望效應。本實驗發現婚姻狀況和居住地因素是顯著的。[15]

Dede D 該食譜中分析的資料全面地描繪了美國人如何使用和支付醫療服務。資料集是 66 歲及以上個人的子樣本(總共 4406 個觀察值)。每個人都享有醫療保險。本實驗的最終目標是構建一個具有最高解析度的 2^m-3 分數階乘設計。為了達到這個目標,需要執行以下步驟:(1)建立形式為 2^2 * 3^2 的全因子設計,(2)將 3 個水平轉換為 2 個水平因素,形成 2^6 全因子設計,(3)將 2^6 全因子設計轉換為 2^m-3 設計。使用別名,將確定此最終分數階乘設計的別名結構。根據主效應,將構建一個線性模型,並使用方差分析對其進行檢驗。[16]

Liang Z 關於房產的話題在過去幾十年裡被研究人員詳細分析過。許多因素會影響住房的價值,使研究更加複雜。在本專案中,我們分析了可能影響房屋價值的因素。我們在 Ecdat 中的住房資料集中應用分數階乘設計 (FFD)。研究變數包括可能影響價格的兩個 2 水平因素和兩個 3 水平因素。分數階乘設計用於執行此分析。我們設計了實驗,將每個 3 水平因素劃分為兩個 2 水平因素。然後,我們分析主效應,並將結果與全因子設計進行比較。[17]

Benjamin B 該專案研究了汽車資料集,該資料集包含 93 個觀察值。使用分數階乘設計,它研究了哪些因素影響價格。有兩個 2 水平因素和兩個 3 水平因素,它們被分解為 2 水平因素。這些因素包括安全氣囊、驅動方式、手動變速箱和產地。然後,它根據別名結構、me、ie 和方差分析分析結果。結果如預期,驅動方式、手動變速箱和產地對汽車價格的影響最大。[18]

Rajani D 本分析側重於瞭解學生的不同屬性如何影響他們的學校出勤率。資料集包含 2008 年葡萄牙 649 名學生的 30 個屬性,但實驗側重於性別、課外活動參與度、酒精消費和上學時間。本研究使用 2^6-3 分數階乘設計分析了這四個自變數對缺勤次數的影響。分析使用線性模型和方差分析,並考慮了別名結構。 http://rpubs.com/rajanideshpande/234410

Felipe O 使用收集到的資料來執行關於哪些因素影響衣服在洗滌後顏色變化的全因子實驗,形成了分數階乘實驗。這些因素包括汙垢型別、面料、洗滌溫度以及洗滌劑是否為表面活性劑。將 3 水平因素轉換為 2 水平因素,並從新的分數設計中獲得結果。</ref>http://rpubs.com/ortizf2/234412</ref>

Shamus W 實驗使用的是 Ecdat 包中的 Cars93 資料集。該資料集包含 93 個觀測值,23 個變數,是 1993 年在美國銷售的汽車屬性的集合。本實驗關注的是 4 個因素(兩個 2 水平因素和兩個 3 水平因素)對車輛價格的影響。觀察到的因素包括安全氣囊、驅動系統、變速箱型別和車輛原產地。本實驗利用了混淆、主效應和互動效應以及方差分析的知識。[19]

Andreas V 實驗資料集是 Ecdat 包中的“Fatality”,包含與交通事故死亡率相關的幾個因素。我們在 2^(6-3) 分數析因設計中檢查了 4 個因素,其中兩個是 2 水平因素,兩個是 3 水平因素。實驗考察了混淆、主效應和互動效應,以及方差分析。FrF2 包用於混淆結構,方差分析提供了對主效應和次要效應的見解。[20]

Diana R 研究使用分數析因設計考察了青少年人群的抑鬱指數。分析涉及四個因素:性別、每天吸菸、飲酒和吸毒水平。由此產生的分數析因設計是由一個解析度為 III 的 2^(6-3) 設計組成,生成了 8 個執行。擬合的迴歸模型也被開發出來,方差分析結果表明性別人群之間以及高水平成癮之間存在顯著差異。[21]

Trevor C. 在此配方中,分析了來自 1974 年《汽車趨勢》雜誌的汽車設計和效能指標資料集。MPG 是一個響應變數,它依賴於包括氣缸數量、汽車重量、V 型或直列發動機以及自動或手動變速箱等因素。有 32 個觀察值。這些資料可以在 vincentarelbundock.github.io/Rdatasets/datasets.html 上找到。該實驗使用了解析度為 III 的分數析因設計,並且方差分析結果表明資料集中某些因素的顯著性。[22]

Prasanna Date 研究了兩個 2 水平因素(戶主性別和家庭是否位於市區)和兩個 3 水平因素(戶主年齡和家庭規模)對越南家庭總家庭支出的影響。資料集來自 Ecdat 包。[23]

  1. Trevor Manzanares http://rpubs.com/manzat/42544
  2. http://rpubs.com/adamato/42650
  3. http://rpubs.com/Tothk2/Recipe8
  4. Brendan Howell http://rpubs.com/howelb/42796
  5. Wei Zou http://rpubs.com/serena049/46151
  6. http://rpubs.com/konraz/43258
  7. Ali Svoboda- http://rpubs.com/svoboa/44750
  8. Michael W- http://rpubs.com/mtwassick/232905
  9. Molly R - http://rpubs.com/molly_ren/doeproject3
  10. Mike D. - http://rpubs.com/deagem/reddit
  11. Clare D - http://rpubs.com/cadorsey/234395
  12. Alexis Z. - http://rpubs.com/ziemba/234397
  13. TE http://rpubs.com/trilcemarie/DoE_P03
  14. Yage Ding - http://rpubs.com/dingy2/232289
  15. Munira Shahir- http://rpubs.com/mjshahir/234401
  16. Dede Dolkar - http://rpubs.com/dededolkar/234405
  17. Liang Z http://rpubs.com/zhaol11/234349
  18. Benjamin B http://rpubs.com/byeonb/doeproject3_version01
  19. Shamus W http://rpubs.com/shamuswheeler/project3
  20. Andreas V http://rpubs.com/byeonb/234436
  21. Diana R. http://rpubs.com/dgramirez82/project3
  22. Trevor C. http://rpubs.com/trevorcorrao/234450
  23. Prasanna D. http://rpubs.com/prasanna_date/234882
華夏公益教科書