基本上,這裡的所有部分都可以線上性代數書中找到。但是,格拉姆-施密特正交化被用於統計算法和解決統計問題。因此,我們將簡要介紹理解格拉姆-施密特正交化所需的線性代數理論。
以下子節也包含示例。對於進一步理解,重要的是這裡介紹的概念不僅適用於作為實數元組的典型向量,也適用於可以被視為向量的函式。
一個集合
,在其元素上具有兩個運算
和
,被稱為域(或簡寫為
),如果滿足以下條件
- 對於所有
,有 
- 對於所有
,有
(交換律)
- 對於所有
,有
(結合律)
- 存在一個獨特的元素
,稱為 *零*,使得對於所有
都有 
- 對於所有
,存在一個唯一的元素
,使得 
- 對於所有
都有 
- 對於所有
都有
(交換律)
- 對於所有
都有
(結合律)
- 存在一個唯一的元素
,稱為 *一*,使得對於所有
都有 
- 對於所有非零
,存在一個唯一的元素
,使得 
- 對於所有
都有
(分配律)
中的元素也被稱為 *標量*。
很容易證明,具有眾所周知的加法和乘法的實數
是一個域。對於具有加法和乘法的複數,情況也是如此。實際上,很少有其他集合可以滿足所有這些條件。
對於統計學,只有實數和複數與加法和乘法很重要。
具有兩個運算
和
的集合
稱為在 R 上的向量空間,如果滿足以下條件:
- 對於所有
滿足 
- 對於所有
滿足
(交換律)
- 對於所有
滿足
(結合律)
- 存在一個唯一的元素
,稱為原點,使得對於所有
滿足 
- 對於所有
存在一個唯一的元素
,使得滿足 
- 對於所有
和
滿足 
- 對於所有
和
都滿足
(結合律)
- 對於所有
和
都滿足 
- 對於所有
和所有
都滿足
(對向量加法的分配律)
- 對於所有
和所有
都滿足
(對標量加法的分配律)
注意,我們在
和
中使用了相同的符號
和
來表示不同的運算。
的元素也被稱為 _向量_。
示例
- 集合
,其中包含實值向量
,並定義了逐元素加法
和逐元素乘法
,是一個關於
的向量空間。
- 度數為
的多項式集合
,其中定義了通常的加法和乘法,是一個關於
的向量空間。
如果向量
可以表示為向量
的線性組合,則
其中
。
示例
是
的線性組合,因為 
是
的線性組合,因為 
一組向量
稱為向量空間
的基,如果
1. 對於每個向量
存在標量
使得
2.
的任何子集都不能滿足條件 1。
需要注意的是,一個向量空間可以有多個基。
示例
- 每個向量
可以寫成
。因此,
是
的一個基。
- 每個
次多項式可以寫成
的線性組合,因此構成該向量空間的基。
事實上,對於這兩個例子,我們都需要證明條件 2,但很明顯它成立。
向量空間的維數是指構成基所需要的向量的個數。向量空間有無窮多個基,但維數是唯一確定的。請注意,向量空間可能具有無窮維,例如考慮連續函式空間。
示例
的維數是 3,
的維數是
。
次多項式的維數是
。
對映
稱為標量積,如果對於所有
和
以下成立:


,其中 
,其中
示例
- 在
中,典型的標量積是
。
是度數為
的多項式向量空間上的標量積。
向量的 *範數* 是一個對映
,如果滿足以下條件:
對於所有
以及
(正定性)
對於所有
以及所有 
對於所有
(三角不等式)
示例
- 在
中,向量的
範數定義為
.
- 每個標量積透過
生成一個範數,因此
是
次多項式的範數。
如果
,則稱兩個向量
和
彼此正交。在
中,兩個向量之間的夾角的餘弦可以表示為
.
如果
和
之間的夾角為 90 度(正交),則餘弦為零,因此
.
如果向量集
滿足
,則稱此向量集為標準正交向量集。.
如果我們考慮一個向量空間的基底
,那麼我們希望有一個正交歸一基。為什麼呢?
由於我們有一個基底,每個向量
和
可以表示為
和
。因此,
和
的標量積簡化為
|
|
|
|
|
|
|
|
|
|
|
因此,如果係數已知,標量積的計算就簡化為簡單的乘法和加法。請記住,對於我們的多項式,我們需要解一個積分!
格拉姆-施密特正交化的目標是,對於一組向量
,找到一組等效的 *標準正交* 向量
,使得任何可以用
的線性組合表示的向量,也可以用
的線性組合表示。
1. 設定
以及
。
2. 對於每個
,設定
以及
。在每一步中,向量
投影到
上,並將結果從
中減去。
考慮區間
上的二次多項式,其標量積為
,範數為
。我們知道
和
是這個向量空間的一組基。現在讓我們構造一個正交歸一基。
步驟 1a:
步驟 1b:
步驟 2a:
步驟 2b:
步驟 3a:
步驟 3b:
可以證明
和
構成上述內積和範數下的正交規範基。
考慮向量
和
。假設
足夠小,以至於在計算機上計算
成立(參見 http://en.wikipedia.org/wiki/Machine_epsilon)。讓我們計算在
中,這些向量使用標準內積
和範數
的正交規範基。
步驟 1a. 
步驟 1b.
,其中 
步驟 2a. 
步驟 2b. 
步驟 3a. 
步驟 3b. 
很明顯,對於向量
- 
- 
- 
標量積
. 其他所有對也不為零,但它們乘以
,因此結果接近於零。
為了解決這個問題,使用修正的 Gram-Schmidt 演算法。
- 設定
對於所有 
- 對於每個
從
到
,計算
- 對於每個
從
到
計算 
不同之處在於,我們首先計算新的
並將其從所有其他
中減去。我們將錯誤計算的向量應用於所有向量,而不是分別計算每個
。
步驟 1.
,
, 
步驟 2a.
,其中 
步驟 2b. 
步驟 2c. 
步驟 3a. 
步驟 3b. 
步驟 4a. 
我們可以很容易地驗證
.
在高維資料分析中,我們通常分析資料的投影。這種方法源於 Cramer-Wold 定理,該定理指出,如果我們知道所有一維投影,則多維分佈是固定的。另一個定理指出,即使資料的多元分佈高度非正態,多元資料的多數(一維)投影也看起來是正態的。
因此,在探索性投影追蹤中,我們透過與(標準)正態分佈的比較來判斷投影的有趣性。如果我們假設一維資料
是標準正態分佈的,那麼在進行變換
後,其中
是標準正態分佈的累積分佈函式,那麼
在區間
中均勻分佈。
因此,有趣的程度可以透過
來衡量,其中
是根據資料估計的密度。如果密度
在區間
中等於
,則積分變為零,我們發現我們投影的資料服從正態分佈。大於零的值表示投影資料的正態分佈存在偏差,並且有希望是一個有趣的分佈。
令
是一個具有內積
和範數
的正交多項式集。關於區間
中的密度
,我們可以得出什麼結論?
如果
對於某個最大度數
成立,則有
我們也可以寫成
或根據經驗,我們得到一個估計量
.
我們描述術語
併為我們的積分得到
因此,使用正交函式集允許我們將積分簡化為係數的求和,可以透過將
代入上述公式來從資料中估計。係數
可以提前預先計算。
剩下的唯一問題是找到正交多項式集
到達度數
。我們知道
為此空間形成一個基底。我們必須應用 Gram-Schmidt 正交化來找到正交多項式。這在 第一個示例 中已經開始。
得到的多項式稱為歸一化勒讓德多項式。除一個縮放因子外,歸一化勒讓德多項式與 勒讓德多項式 相同。勒讓德多項式具有以下形式的遞迴表示式
因此,計算我們的積分就簡化為計算
和
,並使用遞迴關係計算
。請注意,遞迴可能在數值上不穩定!
- Halmos, P.R. (1974). 有限維向量空間,施普林格:紐約