實驗設計食譜/第 0 章:預備知識
第 0 章:預備知識
0.1 實驗設計簡介 (Yage D, Felipe O)
每天當你進行觀察或得出結論時,你都在從系統中獲取資訊。這可以是任何事情,從研究藥物化學成分的影響到觀察一位老婦人在公園裡喂鳥麵包屑。如果你更感興趣,你可能會繼續觀察,並注意差異以及是什麼導致了這些差異。例如,你可能注意到藥物中某種化學物質比例的影響是負面的。或者鳥類的覓食量隨著冬季臨近而減少。在這兩種情況下,你都觀察到了系統中的變化,並將其歸因於一個原因;現在你對系統有了更好的瞭解。你對影響系統的因素瞭解得越多,你對系統本身就瞭解得越多。
當你對系統的特定影響感興趣時,你可以進行一個實驗。以最簡單的形式,實驗就是改變系統的某個方面,並記錄它對系統的影響。當你更多地瞭解這些因果關係時,你就可以開始建立理論和假設,並設計實驗,從你的測試中獲得準確的結果。這正是正確實驗的重要性所在。為了獲得有效的結果並得出正確的結論,實驗必須以特定的目標為指導進行設計。實驗的目標是找到自變數對因變數的影響,換句話說,就是找到因果關係及其大小。
我們都學習過科學方法形式的實驗基礎知識。也就是說,你有一個假設,它成為實驗的二元條件。你要麼證明假設是正確的,要麼無法驗證它。無論哪種情況,都會從系統中獲得資訊。傳統上,最常見的實驗方法之一是 OFAT(一次一個因素),簡單來說,就是改變一個變數並測量它產生的影響。歷史上,這種方法很普遍,許多著名的研究人員(如愛迪生)都使用過它。然後在第一次世界大戰期間,羅納德·費舍爾開發了一種新的分析方法。這種方法被稱為方差分析 (ANOVA),簡而言之,它是一種可以用來分析組均值差異的強大方法。該工具允許在實驗中具有更大的靈活性,因為它能夠一次測試多個零假設。這真正開啟了實驗設計以及結果分析的新篇章。在費舍爾之後不久,喬治·博克斯出現了,然後是田口。透過田口實驗設計,根據因素和水平的數量,所需的實驗次數可以顯著減少。以下章節將進一步討論為實驗開發的工具和方法。
一般來說,有三種實驗方法。最佳化(找到期望因變數的最佳自變數排列)、靈敏度分析(找到一個或多個因素對因變數的影響大小)和替代建模(當期望因素難以測量時)。在這本書中,我們將探索用於檢驗假設的統計實驗設計的正確方法。將使用開源統計計算和圖形軟體 R 提供示例,以便讀者可以在自己的工作中使用它們。
[SMD:很棒的開頭!我喜歡列出 3 種實驗型別。你能擴充套件這個介紹,談談從愛迪生到費舍爾到博克斯的實驗歷史嗎?誠然,你還沒有聽說過博克斯,所以只留下一個標籤以備後用。我對看看你對愛迪生和費舍爾的看法感興趣,也許可以從你的閱讀材料中獲得一些見解。]
實驗有 3 個組成部分:因素、水平和響應。這些是我們日常生活中可能使用的術語,但在實驗設計中,它們有特定的含義。正如牛津美國新詞典所定義的,“因素”是“導致結果或結果的某個情況、事實或影響”,這正是它在實驗中的含義:一個因素髮生變化以影響結果。實驗中的結果被稱為“響應”,因素的變化被稱為“水平”。因此,當一個因素從一個水平到另一個水平變化時,實驗中的實驗單位應該對因素的每個水平產生特定的響應。前一句中出現了一個新詞“實驗單位”,它是用來測試特定實驗條件的物件。讓我們舉一個簡單的例子。一位農民想知道他的新作物型別需要多少灌溉才能產生最高的產量。他決定種植多英畝這種新的作物型別,並給每英畝提供不同的灌溉量,並在作物成熟後測量每英畝的產量。在這個例子中,由於灌溉量從一英畝到另一英畝發生變化,所以它是因素,不同的灌溉量是該因素的水平。響應,換句話說,實驗單位(作物型別)的結果,當然是產量。現在我們知道了實驗的組成部分,我們可以開始設計實驗。實驗設計有 3 個基本原則:隨機化、重複和區組,其中隨機化還包括 3 個方面:隨機選擇、隨機分配和隨機執行順序。隨機選擇是指應該從總體中隨機選擇實驗單位。使用農民的例子,如果農民總是使用來自 1 家公司的作物種子,那麼來自該公司的作物種子應該是總體,並且應該從總體中隨機選擇實驗單位,這意味著他應該跨批次選擇,而不是使用來自同一批次的種子作為實驗單位。在隨機選擇實驗單位後,我們應該隨機地將處理分配給它們。這裡的新術語“處理”只是因素水平的另一個名稱。在隨機處理分配後,我們終於可以執行實驗了,當然,以隨機順序執行。透過隨機化,我們最大限度地減少了系統誤差,並確保了我們在因素和響應之間可能得出的推論的有效性。第二個基本原則是重複,它是將相同處理應用於多個樣本的過程。在我們的產量-灌溉示例中,如果農民對多英畝作物施以相同的灌溉量,那麼這些英畝作物就被稱為“重複”。進行重複可以讓我們更準確地瞭解觀察資料,因為我們可以從重複之間的差異來估計實驗誤差,從而估計誤差引起的變異。如果誤差引起的變異小於處理變化引起的變異,那麼我們可以得出因素和響應之間的推論。第三個原則是區組。在一個實驗中,有受控因素,即我們感興趣的因素,以及其他不感興趣但確實會影響實驗單位響應的因素,這些因素被稱為“干擾因素”。這些因素通常在實驗中進行區組,我們透過保持每個單位上除了感興趣因素之外的所有實驗條件相同來實現這一點。透過對干擾因素進行區組,我們可以觀察到在不受干擾因素干擾的情況下,感興趣因素和響應之間更精確的關係。有了確保我們從實驗中可能得出的結論的準確性和精度的 3 個基本原則,我們還根據實驗策略設計實驗,這些策略是計劃實驗的 3 種常用方法:最佳猜測法、一次一個因素 (OFAT) 和析因設計。我們將在本章的以下部分討論這些內容。
0.2 最佳猜測實驗設計 (Diana R, Molly R)
也許最基本的實驗設計方法是最佳猜測法。這種策略完全是字面意思:實驗者對他們認為的實驗因素的最佳組合進行“最佳猜測”。雖然這是一種非正式的策略,但它經常被使用,而且成功率往往高於預期。這是因為進行實驗的人經常會做出經過深思熟慮的猜測,這些猜測是基於他們對所考察因素的先驗知識。
然而,這種方法並非沒有缺點。當使用最佳猜測來尋找最佳解決方案時,會有兩種可能的結果:結果要麼是可接受的,要麼不可接受。如果結果顯然不可接受,那麼實驗者該如何做?他們的第二好猜測?這可能會持續很長時間,並且可能永遠不會得到最佳解決方案。但是,如果最佳猜測實驗的結果是令人滿意的呢?實驗者應該停止在那裡,還是繼續實驗?無法保證令人滿意的解決方案是最佳解決方案。最佳猜測實驗設計是一個很好的起點,但對於更復雜的實驗來說顯然不是理想的策略。
咖啡行業展示了最佳猜測方法如何在現實世界中得到應用。市場上可能提供不同品種的咖啡(不同地區),而這些品種中又會有不同的烘焙型別。確實存在不確定性,無法確定這些組合中的哪一個將提供最佳銷量。假設在哥倫比亞國家的一些地區提供了最好的咖啡品種(安蒂奧基亞、亞美尼亞、桑坦德、烏伊拉、納里尼奧和塞拉內華達),以及四種不同的烘焙型別(淺烘焙、中烘焙、中深烘焙和深烘焙)。如果公司想要獲得最大的銷量,最合乎邏輯的方法是嘗試所有不同的組合,並生產每種型別咖啡的批次。然而,生產和銷售所有這些咖啡可能在經濟上不可行,因此最佳猜測可能是最好的方法。根據對該國咖啡的國際評級,哥倫比亞的某些地區在世界各地的咖啡品嚐比賽中獲得了第一名。烏伊拉就是其中一個地區,眾所周知,中烘焙是這種豆子的最佳烘焙型別。此外,進一步的市場調查表明,許多歐洲國家、加拿大和美國的一些地區需要有機咖啡。由於塞拉內華達地區生產該地區最好的有機咖啡之一,因此也可以提供這種咖啡。由於這種豆子需要更高的醇厚度,深烘焙似乎是最佳選擇。這種最佳猜測方法使用“最大銷量”作為響應變數,以及 (i) 咖啡品種和 (ii) 烘焙型別作為因素。同樣,最佳猜測方法可以為問題提供解決方案,儘管最好使用更明確的策略來確保找到最佳解決方案。</nowiki>
0.3 一次一個因素 (OFAT) 實驗設計 (Munira S, Fabiana T)
一次一個因素 (OFAT) 實驗設計是一種實驗設計,其中每次實驗只改變一個因素,而其他因素保持不變。
方法
- 從你的初始值開始。一種可能是從最佳猜測開始。
- 在所考慮的因素中,選擇一個因素 x。
- 在保持其他因素不變的情況下,執行具有不同 x 水平的實驗,以最佳化響應變數。
- 將因素 x 設定為最佳化響應變數的水平。
- 選擇一個與因素 x 不相關的因素 y。
- 重複這種方法,直到所有因素都用完,每次都選擇一個與之前變化的因素不相關的因素。
例如,假設我們想要透過改變肥料型別(A 或 B)和蔬菜型別(胡蘿蔔或茄子)來最佳化種植產量。從胡蘿蔔開始,假設我們使用肥料 A 獲得了更好的產量,所以我們保留肥料 A 並改變蔬菜型別,得到茄子產量低於胡蘿蔔的產量。在這種情況下,我們會選擇胡蘿蔔-肥料 A 的組合作為更好的選擇。
優點 - 在資料容易獲取的情況下,例如獲取資料的成本低、執行實驗的時間短或資料可用性高,OFAT 是一種很好的方法。在目標是改善現有系統的場合,它也具有優勢。此外,由於 OFAT 不考慮因素之間的互動效應,因此在因素之間沒有關聯的實驗中,它應該是一種合適的方法。
缺點 - 在資料難以獲取的情況下,一次改變多個因素更有效率,因此 OFAT 不是一個好的選擇。當實驗執行特別昂貴或耗時時,這種觀察結果也適用。然而,OFAT 方法的主要侷限性在於它無法考慮因素之間的互動效應,因此在存在互動效應的實驗中很容易失效。此外,OFAT 實驗可能會錯過因素的最優值,而這些最優值可以透過析因設計實驗來揭示。例如,考慮到之前描述的種植示例,如果茄子和肥料 B 的組合比選擇的組合(胡蘿蔔和肥料 A)具有更高的產量,我們就會錯過最佳解決方案,而該解決方案可以透過析因設計實驗來揭示。
[SMD: 你有一個很好的例子,但是你可以新增一些其他的因素級別,以便你可以展示多次更改級別?請考慮我們在第一天課堂上回顧過的雜貨架示例。請重新思考你上面的缺點。我認為 OFAT 的一個真正的缺點是完成一個實驗所需的時間或實驗執行次數,即使那樣,你可能也無法獲得最佳值。]
0.4 析因設計(Kaan U, Michael W)
析因設計是指觀察響應(因變數)變化的實驗方法,其中兩個或多個因素的所有可能組合都在獨特的隨機化執行中進行測試,而不是隻在一個預定的順序中一次改變一個因素。這種方法是由 RA Fisher 在 1920 年代開創的,它極大地改變了實驗設計的方法。
因素是一個獨立的分類變數,因素的不同值被稱為水平。它們既可以是定量的,也可以是定性的,儘管大多數只是與實驗中涉及的處理或引數相關的單個單詞或數字。連續變數通常不是因素,但響應變數通常是連續的。
如果我們將析因設計與之前解釋的方法進行比較,優點可以列出如下
- 析因設計使實驗者能夠確保他們找到了組合的全域性最優,而不是區域性最優,這是之前討論的 OFAT 或最佳猜測實驗設計方法的主要風險。
- 與 OFAT 實驗設計方法相比,另一個優勢是,每個因素在每個實驗中都被檢查多次,這節省了資源並提高了模型的精度。
- 最後,這種設計方法可以避免實驗結果因研究人員的預期而產生混淆。
0.4.1 結構/設計組合
在一般的(每個因素的水平相同)析因實驗中,實驗執行的總數或另一個說法是處理次數可以透過計算 n^m 來計算,其中 n 是每個因素的水平數,m 是因素數。在一個實驗中,每個因素的水平數不相同,執行的總數由方程 n*m*k*p… 給出,其中每個變數是其相應因素的水平數。
根據組合的覆蓋範圍,析因設計有兩種型別
- 如果實驗考慮所有因素水平的所有可能組合,則將其定義為完全析因設計。
- 但是,由於成本過高或組合數量過多,只能測試一小部分組合,這被定義為部分析因設計。
0.4.2 如何解釋實驗結果?
析因設計的結果可以用於計算因素對響應變數的效應(me)和多個因素共同作用產生效應的結果,即互動效應。一個因素的主效應可以計算為該因素所有水平之間的平均差異。互動效應是透過對因素進行平均來計算的(在因素之間對結果進行對角平均,例如從因素 A 水平 1 到因素 B 水平 2,或從因素 A 水平 2 到因素 B 水平 1)。
主效應和互動效應彼此獨立(正交)。這意味著在某些情況下可能不存在主效應,但存在一些互動效應,或者反之,可能存在主效應,但不存在互動效應。互動作用可以在所有變數之間發生,因此在一個具有因素 A - B - C 的析因設計中,可能的互動作用是 A+B、A+C、B+C 和 A+B+C。
為了確定析因實驗結果的統計顯著性,可以進行方差分析。這將表明顯著性可能是偶然的,也可能不是偶然的。這使研究人員能夠接受零假設:因素沒有統計顯著的主效應或互動效應,或拒絕零假設,並說因素對響應變數有統計顯著的主效應或互動效應。
0.4.3 例子
從上一節中描述的實驗設計繼續,假設有三種類型的肥料(A、B 和 C)和三種類型的蔬菜(茄子、胡蘿蔔和辣椒)。
每個實驗組合都將被放在地塊中,以便對每個因素水平進行全面比較。土地地塊可以像下面所示那樣隨機劃分
| 茄子 + A | 胡蘿蔔 + B | 茄子 + C |
| 胡蘿蔔 + C | 辣椒 + A | 辣椒 + B |
| 辣椒 + C | 茄子 + B | 胡蘿蔔 + A |
所有作物都將受到平等的處理,然後從每個子地塊中收集資料。資料完成後,可以比較所有因素組合,以確定哪個具有最佳產量。這個過程確保透過測試所有因素組合來找到最優值。
0.5 實驗設計的設定、設計和分析正規化
在設計實驗時,有一個框架可以幫助我們思考手頭的問題。本文采用的是設定-設計-分析正規化,該正規化來自 [?]。
- 設定(問題)
- 設計(實驗)
- 分析(實驗)
- 探索性分析
- (零假設統計)檢驗
- 估計(引數)
- 模型充分性檢驗
步驟 I: 設定
要求:對正在研究的問題、想法、論點的描述
結果:要提出的問題、以非數學術語表達的零假設陳述、以及正在測試和/或控制的因素的數量和型別
步驟 II: 設計
要求:要提出的問題、以非數學術語表達的零假設陳述、正在測試和/或控制的因素的數量和型別
結果:實驗的設計
分析階段和食譜大綱
要求:實驗設計、執行實驗後的結果
結果:一份報告,由以下四個部分組成
- 探索性分析
- 檢驗
- 估計(引數)
- 模型充分性檢驗