跳轉到內容

一般工程學導論/誤差分析/統計分析

來自華夏公益教科書

有兩種方法可以測量某事物

  • 測量一次值,最大值和最小值(參見測量誤差
  • 多次測量值並使用統計方法計算最大值和最小值

隨機誤差假設

[編輯 | 編輯原始碼]

在以下兩種情況下,多次測量某事物以減少隨機誤差是合適的

  • 在專案開始時,結果非常混亂,無法判斷是改善、保持不變還是惡化。
  • 在專案結束時,試圖提高準確性,可以清楚地看到不確定性的影響。

高年級和研究生課程側重於如何在專案結束時使用統計學。這裡旨在介紹在專案開始時使用的統計學。

平均概念

[編輯 | 編輯原始碼]
  • 眾數 -- 序列 1,1,2,4,7 的眾數是 1。它出現的頻率最高... 不受極值的影響
  • 中位數 -- 列出所有資料,中間數字是中位數,不受極值的影響
  • 平均數 -- 序列的平均數,平均值 1,1,2,4,7 是 3。... 受極值的影響

離群值

[編輯 | 編輯原始碼]

離群值 是極值。它們會扭曲平均值的計算。沒有關於什麼構成離群值的嚴格數學定義。確定觀察值是否為離群值最終是一個主觀練習。超過三個標準差的離群值需要合理化。合理化可能導致這些測量結果被丟棄。

均值計算

[編輯 | 編輯原始碼]

算術平均數 是“標準”平均數,通常簡稱為“平均數”。

例如,五個值的算術平均數:4, 36, 45, 50, 75 是

正態分佈

[編輯 | 編輯原始碼]
紅線是正態分佈,其他顏色不是

實驗中的觀測誤差通常假設服從正態分佈,不確定性的傳播是使用這個假設計算的。

如果資料是真正隨機的,那麼當 X 的值為 0 或 μ = 0 且標準差或 σ 2 = 1 時,它就是右側圖形中的紅線。

觀測誤差可能是由於人為錯誤,導致化學物質混合量略有不同;或者使用物理裝置,例如會根據刻度線頭部隨機位置提供不同值的尺子;或者在不同的時間和風力條件下從數字溫度計記錄相同數字。

顯然,大多數事物不是隨機的,但它們足夠隨機,以至於這是一個對誤差的良好、一級近似。它是理解誤差和不確定性計算的良好起點。

標準差

[編輯 | 編輯原始碼]
兩個飛鏢遊戲,一個比另一個更準確,但平均值相同

看看兩個飛鏢遊戲的結果。它們的平均值都相同(板子的中心)。但很明顯,一個飛鏢遊戲比另一個更接近中心。我們如何量化這一點?標準差 (σ) 量化了這一點。

這裡的目標是提供標準差的直觀定義。因此,讓我們從觀察兩個數字序列開始

  • 1,1,2,4,7
  • 2,2,3,3,5

兩者都具有。顯然,第二個序列更接近平均值。第一個的偏差必須大於第二個的偏差。但是,將與中位數的偏差相加並找到該平均值並不奏效

這兩個序列與平均值的偏差都是 0。 這是行不通的,因為負數抵消了正數。那麼如何將負數變成正數呢? 將其平方然後開平方。或者取絕對值

現在我們可以看到成功了。第一個序列 1,1,2,4,7 的平均偏差比第二個序列 2,2,3,3,5 大。 一般來說,平均偏差可以寫成

"標準差" 應該改為 "均方根偏差"。它用平方代替了絕對值符號,然後對平方值和樣本數量都開平方。 這使得 "標準差" 變大(2 變為 2.1,0.8 變為 1.2)。 這傾向於強調微小的差異,並且比 "平均偏差" 更受歡迎。

這種技術(強調微小的差異)的問題是,它只在對地球上所有事物進行取樣時或實驗無限次進行時才有效。 導致貝塞爾校正的問題是

上面的公式通常在電子表格和計算機代數軟體中使用,因為大多數情況下工程師和科學家是在對可能性樣本進行統計,而不是對所有可能性進行統計。

解釋標準差

[edit | edit source]

在大多數情況下,較小的標準差或誤差是好的。以下是一些以使偏差變大為目標的案例

  • 寓言(每個人都聽相同的東西,但解釋不同)
  • 吉他失真
  • 將訊號移到通道(像吉他一樣失真,然後濾除除一小部分之外的所有內容,然後放大到通道)
  • 重新平衡 B 樹(將資料分散,以便可以快速新增新資料)
  • 反應中存在多個平衡點,而不是一個平衡點
華夏公益教科書