跳轉到內容

統計學/數值方法/基礎線性代數與格拉姆-施密特正交化

來自Wikibooks,開放世界中的開放書籍

基本上,這裡找到的所有章節都可以線上性代數書籍中找到。但是,格拉姆-施密特正交化被用於統計算法和統計問題的解決。因此,我們簡要地介紹一下理解格拉姆-施密特正交化所需的線性代數理論。

以下小節也包含示例。對於進一步理解,理解此處介紹的概念不僅對作為實數元組的典型向量有效,而且對可以被視為向量的函式也有效,這一點非常重要。

一個集合,在其元素上具有兩個運算,被稱為(或簡寫為),如果滿足以下條件

  1. 對於所有,成立
  2. 對於所有,成立(交換律)
  3. 對於所有,成立(結合律)

  4. 存在一個唯一的元素,稱為,使得對於所有 都成立
  5. 對於所有,存在一個唯一的元素,使得成立
  6. 對於所有 都成立
  7. 對於所有 都成立(交換律)
  8. 對於所有 都成立(結合律)
  9. 存在一個唯一的元素,稱為,使得對於所有 都成立
  10. 對於所有非零,存在一個唯一的元素,使得成立
  11. 對於所有 都成立(分配律)

中的元素也稱為標量

很容易證明,具有熟知的加法和乘法運算的實數構成一個域。複數在加法和乘法運算下也同樣滿足域的條件。實際上,滿足所有這些條件的集合,帶有兩種運算的,並不多。

對於統計學來說,只有實數和複數以及它們的加法和乘法運算才是重要的。

向量空間

[編輯 | 編輯原始碼]

如果一個集合上的兩個運算作用於其元素上,並且滿足以下條件,則稱其為R上的向量空間

  1. 對於所有,成立
  2. 對於所有,成立(交換律)
  3. 對於所有,成立(結合律)
  4. 存在一個唯一的元素,稱為零向量,使得對於所有,成立
  5. 對於所有,存在一個唯一的元素,使得成立
  6. 對於所有,成立

  7. 對於所有,都成立 (結合律)
  8. 對於所有,都成立
  9. 對於所有 和所有 ,都成立 (對向量加法的分配律)
  10. 對於所有 和所有 ,都成立 (對標量加法的分配律)

注意,我們對 中的不同運算使用了相同的符號 中的元素也稱為向量

示例

  1. 實值向量集,其中向量表示為,並定義逐元素加法和逐元素乘法,構成一個在上的向量空間。
  2. 次數為的多項式集,使用通常的加法和乘法,構成一個在上的向量空間。

線性組合

[編輯 | 編輯原始碼]

如果向量可以表示為向量的線性組合,則

其中

示例

  • 的線性組合,因為

  • 的線性組合,因為

向量空間的基

[編輯 | 編輯原始碼]

如果一組向量 滿足以下條件,則稱其為向量空間

1. 對於向量空間 中的每個向量 ,都存在標量 ,使得 2. 的任何子集都不能滿足條件 1。

需要注意的是,一個向量空間可以有多個基。

示例

  • 每個向量 可以寫成 的形式。因此, 的一個基。

  • 每個次數為的多項式可以寫成的線性組合,因此構成該向量空間的一個基。

實際上,對於這兩個例子,我們都需要證明條件2,但很明顯它成立。

向量空間的維數

[編輯 | 編輯原始碼]

向量空間的維數是指構成一個基所需要的向量的個數。一個向量空間有無限多個基,但維數是唯一確定的。注意,向量空間的維數可以是無限的,例如,考慮連續函式的空間。

示例

  • 的維數是三,的維數是
  • 次數為的多項式的維數是

標量積

[編輯 | 編輯原始碼]

對映稱為標量積,如果對於所有都成立:

  1. ,其中

  2. ⟨x,x⟩≥0,其中⟨x,x⟩=0⇔x=O

示例

  • 在IRp中的典型標量積為⟨x,y⟩=∑ixiyi
  • ⟨f,g⟩=∫abf(x)*g(x)dx是關於p次多項式向量空間的標量積。

向量的範數是一個對映||.||:V→R,如果滿足以下條件:

  1. ||x||≥0,對於所有x∈V,並且||x||=0⇔x=O(正定性)
  2. ||αv||=|α|||x||,對於所有x∈V和所有α∈R
  3. ||x+y||≤||x||+||y||,對於所有x,y∈V(三角不等式)

示例

  • 向量在中的範數定義為
  • 每個標量積透過生成一個範數,因此是度數為的多項式的範數。

正交性

[編輯 | 編輯原始碼]

如果,則兩個向量彼此正交。在中,兩個向量之間夾角的餘弦可以表示為

.

如果之間的夾角為90度(正交),則餘弦為零,因此

如果向量集滿足

,則該向量集被稱為標準正交

.

如果我們考慮向量空間的一組基,那麼我們希望得到一組正交規範基。為什麼呢?

由於我們有一組基,每個向量都可以表示為的形式。因此,的標量積簡化為

因此,如果已知係數,標量積的計算就簡化為簡單的乘法和加法。記住,對於我們的多項式,我們需要求解一個積分!

Gram-Schmidt正交化

[編輯 | 編輯原始碼]

演算法

[編輯 | 編輯原始碼]

Gram-Schmidt正交化的目的是為一組向量找到一組等價的標準正交向量,使得任何可以表示為線性組合的向量,也可以表示為的線性組合。

1. 令

2. 對於每個,令,在每一步中,向量被投影到上,並將結果從中減去。

考慮區間內次數為2的多項式,其內積為,範數為。我們知道是該向量空間的一組基。現在讓我們構造一個正交規範基。

步驟 1a:

步驟 1b:

步驟 2a:

步驟 2b:

步驟 3a:

步驟 3b:

可以證明構成具有上述標量積和範數的正交規範基。

數值不穩定性

[編輯 | 編輯原始碼]

考慮向量 。假設 足夠小,使得在計算機上計算 成立(參見 http://en.wikipedia.org/wiki/Machine_epsilon)。讓我們計算在 中,使用標準內積 和範數 ,這些向量的正交基。

步驟 1a.

步驟 1b. ,其中

步驟 2a.

步驟 2b.

步驟 3a.

步驟 3b.

很明顯,對於向量

-

-

-

標量積。所有其他對也不為零,但它們乘以,使得我們得到接近零的結果。

改進的 Gram-Schmidt 方法

[編輯 | 編輯原始碼]

為了解決這個問題,使用了改進的 Gram-Schmidt 演算法

  1. 設定 對於所有

  2. 對於每個,計算
    1. 對於每個,計算

不同之處在於,我們首先計算新的,並將其從所有其他中減去。我們將錯誤計算的向量應用於所有向量,而不是分別計算每個

示例(重新計算)

[編輯 | 編輯原始碼]

步驟 1.

步驟 2a. ,其中

步驟 2b.

步驟 2c.

步驟 3a.

步驟 3b.

步驟 4a.

我們可以很容易地驗證


探索性投影追蹤

[編輯 | 編輯原始碼]

在高維資料分析中,我們通常分析資料的投影。這種方法源於Cramer-Wold定理,該定理指出,如果我們知道所有一維投影,則多維分佈就被確定。另一個定理指出,即使資料的多元分佈高度非正態,多元資料的大多數(一維)投影看起來都是正態的。

因此,在探索性投影追蹤中,我們透過與(標準)正態分佈進行比較來判斷投影的有趣性。如果我們假設一維資料服從標準正態分佈,那麼經過變換,其中是標準正態分佈的累積分佈函式,那麼在區間上均勻分佈。

因此,我們可以用來衡量資料的有趣程度,其中是根據資料估計得到的密度。如果密度在區間內等於,則積分結果為零,這意味著我們投影后的資料服從正態分佈。大於零的值表示投影后的資料偏離正態分佈,並且可能存在有趣的分佈。

用正交多項式展開

[編輯 | 編輯原始碼]

是一組具有標量積和範數的正交多項式。在區間內,關於密度我們能得出什麼結論?

如果對於某個最大階數,則成立

我們也可以寫成,或者根據經驗,我們可以得到一個估計量

我們描述術語,並得到我們的積分

因此,使用正交函式集可以將積分簡化為係數的求和,這些係數可以透過將代入上述公式從資料中估計得到。係數可以提前預先計算。

正則化勒讓德多項式

[編輯 | 編輯原始碼]

剩下的唯一問題是找到正交多項式集,最高次數為。我們知道構成此空間的基底。我們必須應用格拉姆-施密特正交化來找到正交多項式。這在第一個例子中已經開始。

得到的這些多項式稱為正則化勒讓德多項式。除了一個比例因子外,正則化勒讓德多項式與勒讓德多項式相同。勒讓德多項式具有以下形式的遞迴表示式:

因此,計算我們的積分就簡化為計算,並使用遞迴關係計算。請注意,遞迴可能會出現數值不穩定!

參考文獻

[編輯 | 編輯原始碼]
  • Halmos, P.R. (1974)。有限維向量空間,施普林格:紐約
華夏公益教科書