化工過程導論/基本統計與資料分析
在進行實驗時,通常會多次執行實驗,尤其是在實驗成本較低的情況下。科學家多次執行實驗是為了消除測量中出現的隨機誤差(例如,用尺子測量時需要估算兩個刻度線之間的長度),從而獲得更精確的測量結果。然而,問題依然存在:如何將所有資料整合到一個更易於使用的資料集中?
假設您有 n 個在相同條件下獲得的資料點,並且您希望將其整合到儘可能少的幾個資料點中。一個有用的方法是使用某個集中值,該值在某種程度上“位於”所有原始資料點之間。事實上,這就是資料集的平均值。
根據資料分佈的假設,計算資料集平均值的方法有很多種。最常用的方法之一是使用算術平均值,其定義為
其他型別的平均值包括w:幾何平均值,當資料分佈非常廣泛(例如指數分佈)時,應該使用該平均值,以及在傳輸現象中經常出現的“對數平均值”。
獲得平均值後,您可以瞭解資料點“聚集”在哪個值附近,但它無法告訴您資料點在中心周圍的分佈情況。為此,需要使用另一個統計變數,稱為標準差。標準差本質上是資料點與其平均值之間的平均距離。距離用平方距離表示,以防止負偏差減弱正偏差的影響。
標準差 的數學公式為
分母是 n-1 而不是 n,因為統計學家發現它在少量實驗的情況下可以提供更好的結果;有關此方面的更詳細解釋,請參閱w:標準差。
在恆定條件下測量的某個資料集的標準差是衡量該資料集精確程度的指標。由於這個原因,標準差通常與平均值一起使用以報告實驗結果。通常,結果報告為
如果假設某個分佈,那麼瞭解平均值和標準差可以幫助我們估計變數的實際值在某個範圍內的機率,前提是資料中沒有系統偏差。如果存在系統偏差(例如使用損壞的裝置、疏忽等),那麼任何統計方法都無法預測其影響。
假設您有一組在不同條件下獲得的資料點 (),您從圖形中懷疑可以合理地透過一條直線來估計這些資料點的趨勢。您繪製的任何直線都將具有(或可以寫成)以下形式
,其中 m 是直線的斜率,b 是 y 軸截距。
我們想要找到可以用來估計資料模式的最佳直線。這條直線將最有用地用於對我們已知點進行插值,以及對未知值進行外推(只要它們與測量值接近)。在最常用的度量中,擬合的“好壞”由直線與資料點之間的垂直距離 () 決定,該距離稱為殘差
為了使殘差標準化,使其在正負值之間不相互抵消(從而有助於避免統計偏差),在進行最小二乘迴歸時,我們通常關注的是的平方。我們使用平方項而不是絕對值,因為函式是可微分的,如果您還沒有學過微積分,不用擔心這一點。
為了考慮所有資料點,我們只需最小化平方殘差的總和
利用微積分,我們可以對它關於m和b求導,並求解方程,得到m和b的值,使其最小化平方和(因此這種技術的另一個名稱是:最小二乘迴歸。公式如下,其中n是您要回歸的總資料點數[1]
線性迴歸示例
[edit | edit source]示例:
假設你想測量你到學校的路線有多快,但不是直接看汽車的速度表。相反,你檢視地圖並讀取每個交叉路口之間的距離,然後測量走完每個距離所需的時間。假設結果如表所示。你從家出發時離家多遠?你平均速度的最佳估計是多少?
| t(分鐘) | D(碼) |
|---|---|
| 1.1 | 559.5 |
| 1.9 | 759.5 |
| 3.0 | 898.2 |
| 3.8 | 1116.3 |
| 5.3 | 1308.7 |
我們應該對任何這樣的資料做的第一件事是將其繪製成圖表,看看線性擬合是否合理。繪製此資料後,我們可以透過觀察發現,線性擬合似乎是合理的。
現在我們需要計算迴歸公式中的所有值,為了手工計算,我們設定一個表
| 試驗 | t | t^2 | D | D^2 | t*D |
|---|---|---|---|---|---|
| 1 | 1.1 | 1.21 | 559.5 | 313040 | 615.45 |
| 2 | 1.9 | 3.61 | 759.5 | 576840 | 1443.05 |
| 3 | 3.0 | 9.00 | 898.2 | 806763 | 2694.6 |
| 4 | 3.8 | 14.44 | 1116.3 | 1246126 | 4241.94 |
| 5 | 5.3 | 28.09 | 1308.7 | 1712695 | 6936.11 |
| 總計 | 15.1 | 56.35 | 4642.2 | 4655464 | 15931.15 |
現在我們有了這些資料,就可以將其代入線性迴歸方程
所以
因此,最佳擬合線的方程為
將此圖與資料一起繪製,看起來像這樣
如何判斷迴歸效果如何
[edit | edit source]在前面的例子中,我們直觀地判斷是否可以進行線性擬合,但是肯定有可能出現不太直觀的例子!如果資料有一些輕微的曲線,它是否仍然“足夠接近”以至於有用?雖然最終還是需要在看到擬合線圖與資料對比後進行主觀判斷,但是有一個叫做 **相關係數** (r) 的數學工具可以幫助我們,它可以用多種不同的方式定義。其中一種方式如下 [1]
可以證明,這個值始終介於 -1 和 1 之間。它越接近 1(或 -1),線性擬合越合理。一般來說,資料點越多,r 需要越小才能成為好的擬合,但是一個好的經驗法則是在尋找較高的值(高於 0.85 或 0.9),然後繪製圖形以檢視圖形是否合理。有時會,有時不會,這個方法並非萬無一失。
在上面的例子中,我們有
因此,資料與線性模型高度相關。
線性化
[edit | edit source]一般來說
[edit | edit source]無論何時需要將一個或多個引數擬合到資料中,最好先嚐試 **線性化** 該函式,因為線性迴歸比非線性迴歸效率更高,準確性也更高。任何線性化的目標都是將函式簡化為以下形式:
此方法與“標準”線性迴歸的區別在於,變數 1 和變數 2 可以是 x 和 y 的 **任何函式**,只要它們沒有以任何方式組合(即,你不能有 作為其中一個變數)。該技術可以擴充套件到使用稱為 w:多元線性迴歸 的方法進行多個變數,但由於這種方法更難執行,因此本節將重點介紹二維迴歸。
冪律
[edit | edit source]為了瞭解線性化的一些強大功能,讓我們假設我們有兩個變數 x 和 y,它們之間存在冪律關係
其中 A 和 b 是常數。如果我們有將 y 的變化與 x 的變化聯絡起來的資料,我們想知道 a 和 b 的值。如果方程保持當前形式,這很難做到,但我們可以將其更改為線性型函式!
這裡的訣竅是我們需要消除指數 b,為此我們需要對等式兩邊取自然對數
使用對數定律,我們可以簡化等式的右邊,得到以下結果
這個等式的巧妙之處在於,它在某種程度上是線性的。如果我們繪製 ln(y) 與 ln(x) 的關係圖,我們會得到一條斜率為 b,縱截距為 ln(A) 的直線。
指數函式
[edit | edit source]線性化的另一個常見應用是指數函式,其中 x 和 y 之間的關係可以用以下形式表示
這適用於任何底數,但實踐中最常見的底數是尤拉常數 e。同樣,我們對等式的兩邊取自然對數,以消除指數。
這次,繪製 ln y 與 x 的關係圖,我們會得到一條斜率為 ln(b),縱截距為 ln(A) 的直線。
線性插值
[edit | edit source]通常,當您在圖表上查詢屬性時,您會查詢介於兩個圖表條件之間的條件。例如,如果您要查詢 10 MPa 和 430oC 下蒸汽的比焓,您會在蒸汽表中看到類似這樣的內容:[2]
| T (oC) | H |
|---|---|
| 400 | 2832.4 |
| 450 | 2943.4 |
您如何確定中間值?我們無法準確地知道,但我們可以假設 H(T) 是一個線性函式。如果我們假設它是線性的,那麼我們可以很容易地找到中間值。首先,我們建立一個表格,其中包含未知值,如下所示
| T (oC) | H |
|---|---|
| 400 | 2832.4 |
| 430 | x |
| 450 | 2943.4 |
然後,由於我們假設 T 和 H 之間的關係是線性的,並且直線的斜率是一個常數,點 3 和 2 之間的斜率必須等於點 3 和 1 之間的斜率。
因此,我們可以寫出
解得 x = 2899 kJ/kg
相同的方法可用於在兩個表格值之間找到給定 H 的未知 T。
通用公式
[edit | edit source]為了推匯出更通用的公式(雖然我總是從頭開始推導,但擁有一個公式也很不錯),讓我們用變數替換數字,併為它們賦予更通用的符號
| x | y |
|---|---|
將點 3 和 2 之間的斜率等於點 3 和 1 之間的斜率,得到
然後可以根據需要求解該方程以得到 x* 或 y*。
需要記住的是,線性插值並不精確。其不精確程度取決於兩個主要因素:
- x 和 y 之間的真實關係是什麼(曲線越彎曲,線性近似越差)
- 表中連續 x 值之間的差值(距離越小,幾乎任何函式都越接近一條直線)
因此,如果間距非常大,不建議使用線性插值。但是,如果沒有其他近似方法可用,線性插值通常是唯一的選擇,或者可以使用其他形式的插值(根據實際函式的不同,其準確性可能一樣低)。
另請參見 w:插值。
[1]: Smith, Karl J. The Nature of Mathematics. Pacific Grove, California: Brooks/Cole Publishing company, 6e, p. 683
[2]: Sandler, Stanley I. Chemical, Biochemical, and Engineering Thermodynamics. University of Delaware: John Wiley and Sons, 4e, p. 923

