基本上,這裡找到的所有章節都可以線上性代數書籍中找到。但是,格拉姆-施密特正交化被用於統計算法和統計問題的解決。因此,我們簡要地介紹一下理解格拉姆-施密特正交化所需的線性代數理論。
以下小節也包含示例。對於進一步理解,理解此處介紹的概念不僅對作為實數元組的典型向量有效,而且對可以被視為向量的函式也有效,這一點非常重要。
一個集合
,在其元素上具有兩個運算
和
,被稱為域(或簡寫為
),如果滿足以下條件
- 對於所有
,成立
- 對於所有
,成立
(交換律)
- 對於所有
,成立
(結合律)
- 存在一個唯一的元素
,稱為零,使得對於所有
都成立
- 對於所有
,存在一個唯一的元素
,使得成立
- 對於所有
都成立
- 對於所有
都成立
(交換律)
- 對於所有
都成立
(結合律)
- 存在一個唯一的元素
,稱為一,使得對於所有
都成立
- 對於所有非零
,存在一個唯一的元素
,使得成立
- 對於所有
都成立
(分配律)
中的元素也稱為標量。
很容易證明,具有熟知的加法和乘法運算的實數
構成一個域。複數在加法和乘法運算下也同樣滿足域的條件。實際上,滿足所有這些條件的集合,帶有兩種運算的,並不多。
對於統計學來說,只有實數和複數以及它們的加法和乘法運算才是重要的。
如果一個集合
上的兩個運算
和
作用於其元素上,並且滿足以下條件,則稱其為R上的向量空間。
- 對於所有
,成立
- 對於所有
,成立
(交換律)
- 對於所有
,成立
(結合律)
- 存在一個唯一的元素
,稱為零向量,使得對於所有
,成立
- 對於所有
,存在一個唯一的元素
,使得成立
- 對於所有
和
,成立
- 對於所有
和
,都成立
(結合律)
- 對於所有
和
,都成立 
- 對於所有
和所有
,都成立
(對向量加法的分配律)
- 對於所有
和所有
,都成立
(對標量加法的分配律)
注意,我們對
和
中的不同運算使用了相同的符號
和
。
中的元素也稱為向量。
示例
- 實值向量集
,其中向量表示為
,並定義逐元素加法
和逐元素乘法
,構成一個在
上的向量空間。
- 次數為
的多項式集
,使用通常的加法和乘法,構成一個在
上的向量空間。
如果向量
可以表示為向量
的線性組合,則
其中
。
示例
是
的線性組合,因為
是
的線性組合,因為 
如果一組向量
滿足以下條件,則稱其為向量空間
的 基:
1. 對於向量空間
中的每個向量
,都存在標量
,使得
2.
的任何子集都不能滿足條件 1。
需要注意的是,一個向量空間可以有多個基。
示例
- 每個向量
可以寫成
的形式。因此,
是
的一個基。
- 每個次數為
的多項式可以寫成
的線性組合,因此構成該向量空間的一個基。
實際上,對於這兩個例子,我們都需要證明條件2,但很明顯它成立。
向量空間的維數是指構成一個基所需要的向量的個數。一個向量空間有無限多個基,但維數是唯一確定的。注意,向量空間的維數可以是無限的,例如,考慮連續函式的空間。
示例
的維數是三,
的維數是
。
- 次數為
的多項式的維數是
。
對映
稱為標量積,如果對於所有
和
都成立:


,其中
- ⟨x,x⟩≥0,其中⟨x,x⟩=0⇔x=O
示例
- 在IRp中的典型標量積為⟨x,y⟩=∑ixiyi。
- ⟨f,g⟩=∫abf(x)*g(x)dx是關於p次多項式向量空間的標量積。
向量的範數是一個對映||.||:V→R,如果滿足以下條件:
- ||x||≥0,對於所有x∈V,並且||x||=0⇔x=O(正定性)
- ||αv||=|α|||x||,對於所有x∈V和所有α∈R
- ||x+y||≤||x||+||y||,對於所有x,y∈V(三角不等式)
示例
- 向量在
中的
範數定義為
。
- 每個標量積透過
生成一個範數,因此
是度數為
的多項式的範數。
如果
,則兩個向量
和
彼此正交。在
中,兩個向量之間夾角的餘弦可以表示為
.
如果
和
之間的夾角為90度(正交),則餘弦為零,因此
。
如果向量集
滿足
,則該向量集被稱為標準正交。
.
如果我們考慮向量空間的一組基
,那麼我們希望得到一組正交規範基。為什麼呢?
由於我們有一組基,每個向量
和
都可以表示為
和
的形式。因此,
和
的標量積簡化為
|
|
|
|
|
|
|
|
|
|
|
因此,如果已知係數,標量積的計算就簡化為簡單的乘法和加法。記住,對於我們的多項式,我們需要求解一個積分!
Gram-Schmidt正交化的目的是為一組向量
找到一組等價的標準正交向量
,使得任何可以表示為
線性組合的向量,也可以表示為
的線性組合。
1. 令
且 
2. 對於每個
,令
且
,在每一步中,向量
被投影到
上,並將結果從
中減去。
考慮區間
內次數為2的多項式,其內積為
,範數為
。我們知道
和
是該向量空間的一組基。現在讓我們構造一個正交規範基。
步驟 1a:
步驟 1b:
步驟 2a:
步驟 2b:
步驟 3a:
步驟 3b:
可以證明
和
構成具有上述標量積和範數的正交規範基。
考慮向量
和
。假設
足夠小,使得在計算機上計算
成立(參見 http://en.wikipedia.org/wiki/Machine_epsilon)。讓我們計算在
中,使用標準內積
和範數
,這些向量的正交基。
步驟 1a. 
步驟 1b.
,其中 
步驟 2a. 
步驟 2b. 
步驟 3a. 
步驟 3b. 
很明顯,對於向量
- 
- 
- 
標量積
。所有其他對也不為零,但它們乘以
,使得我們得到接近零的結果。
為了解決這個問題,使用了改進的 Gram-Schmidt 演算法
- 設定
對於所有
- 對於每個
從
到
,計算
- 對於每個
從
到
,計算
不同之處在於,我們首先計算新的
,並將其從所有其他
中減去。我們將錯誤計算的向量應用於所有向量,而不是分別計算每個
。
步驟 1.
,
,
步驟 2a.
,其中
步驟 2b. 
步驟 2c. 
步驟 3a. 
步驟 3b. 
步驟 4a. 
我們可以很容易地驗證
。
在高維資料分析中,我們通常分析資料的投影。這種方法源於Cramer-Wold定理,該定理指出,如果我們知道所有一維投影,則多維分佈就被確定。另一個定理指出,即使資料的多元分佈高度非正態,多元資料的大多數(一維)投影看起來都是正態的。
因此,在探索性投影追蹤中,我們透過與(標準)正態分佈進行比較來判斷投影的有趣性。如果我們假設一維資料
服從標準正態分佈,那麼經過變換
,其中
是標準正態分佈的累積分佈函式,那麼
在區間
上均勻分佈。
因此,我們可以用
來衡量資料的有趣程度,其中
是根據資料估計得到的密度。如果密度
在區間
內等於
,則積分結果為零,這意味著我們投影后的資料服從正態分佈。大於零的值表示投影后的資料偏離正態分佈,並且可能存在有趣的分佈。
設
是一組具有標量積
和範數
的正交多項式。在區間
內,關於密度
我們能得出什麼結論?
如果對於某個最大階數
,
,則成立
我們也可以寫成
,或者根據經驗,我們可以得到一個估計量
。
我們描述術語
,並得到我們的積分
因此,使用正交函式集可以將積分簡化為係數的求和,這些係數可以透過將
代入上述公式從資料中估計得到。係數
可以提前預先計算。
剩下的唯一問題是找到正交多項式集
,最高次數為
。我們知道
構成此空間的基底。我們必須應用格拉姆-施密特正交化來找到正交多項式。這在第一個例子中已經開始。
得到的這些多項式稱為正則化勒讓德多項式。除了一個比例因子外,正則化勒讓德多項式與勒讓德多項式相同。勒讓德多項式具有以下形式的遞迴表示式:
因此,計算我們的積分就簡化為計算
和
,並使用遞迴關係計算
。請注意,遞迴可能會出現數值不穩定!
- Halmos, P.R. (1974)。有限維向量空間,施普林格:紐約