統計/數值方法/最佳化

簡介

在下文中，我們將提供一些關於數值最佳化演算法的筆記。由於存在眾多方法，我們將只關注所謂的梯度方法。我們之所以將此類方法作為考慮數值最佳化演算法的自然起點，主要有以下兩點原因。一方面，這些方法在該領域確實是主力軍，因此它們在實踐中的頻繁使用證明了它們在這裡的覆蓋範圍。另一方面，這種方法非常直觀，因為它在某種程度上從眾所周知的最優值性質自然地推匯出。我們將特別關注該類方法的三個例子：牛頓方法、最速下降法以及可變度量方法，其中包括擬牛頓方法。

在開始之前，我們要強調，似乎不存在“唯一”演算法，而特定演算法的效能總是取決於待解決的特定問題。因此，經驗和“試錯”在應用工作中非常重要。為了闡明這一點，我們將提供幾個應用程式，其中可以以圖形方式比較不同演算法的效能。此外，最後還提供了一個關於最大似然估計的具體示例。尤其是對於統計學家和計量經濟學家來說，最大似然估計可能是在實踐中必須依賴數值最佳化演算法的最重要示例。

理論動機

任何數值最佳化演算法都需要解決找到函式的“可觀察”性質的問題，以便計算機程式知道何時達到解。由於我們處理的是最佳化問題，因此兩個眾所周知的結論似乎是進行這種性質推導的合理起點。

如果 f 可微，並且 $x^{\star }$ 是（區域性）最小值，那麼

$(1a)\quad Df(x^{\star })=0$

即雅可比矩陣 $Df(x)$ 等於零

以及

如果 f 二次可微，並且 $x^{\star }$ 是（區域性）最小值，那麼

$(1b)\quad x^{T}D^{2}f(x^{\star })x\geq 0$

即海森矩陣 $D^{2}f(x)$ 是正半定的。

在下文中，我們將始終用 $x^{\star }$ 表示最小值。儘管這兩個條件似乎代表了有助於找到最優值 $x^{\star }$ 的陳述，但它們給出了 $x^{\star }$ 作為函式 $f$ 的最優值的含義，存在一個小問題。但為了我們的目的，我們需要相反的含義，即我們最終想要得到一個形式為："如果某個條件 $g(f(x^{\star }))$ 為真，則 $x^{\star }$ 是一個最小值" 的陳述。但上面的兩個條件顯然不足以實現這一點（例如考慮 $f(x)=x^{3}$ 的情況，其中 $Df(0)=D^{2}f(0)=0$ ，但 $x^{\star }\neq 0$ ）。因此，我們必須檢視 $x^{\star }$ 的整個鄰域，如以下檢測最優值的充分條件中所述

如果 $Df(x^{\star })=0$ 且 $x^{T}D^{2}f(z)x\geq 0,\forall x\in \mathbb {R} ^{n}$ 且 $z\in {\mathcal {B}}(x^{\star },\delta )$ ，則： $x^{\star }$ 是一個區域性最小值。

證明：對於 $x\in {\mathcal {B}}(x^{\star },\delta )$ 令 $z=x^{\star }+t(x-x^{\star })\in {\mathcal {B}}$ 。泰勒近似得到： $f(x)-f(x^{\star })=0+{\frac {1}{2}}(x-x^{\star })^{T}D^{2}f(z)(x-x^{\star })\geq 0$ ，其中 ${\mathcal {B}}(x^{\star },\delta )$ 表示以 $x^{\star }$ 為中心的開球，即 ${\mathcal {B}}(x^{\star },\delta )=\{x:||x-x^{\star }||\leq \delta \}$ 對於 $\delta >0$ 。

與上述兩個條件相反，此條件足以檢測最優值——考慮兩個簡單的例子

$f(x)=x^{3}$ ，其中 $Df(x^{\star }=0)=0$ 但 $x^{T}D^{2}f(z)x=6zx^{2}\not \geq 0\quad (e.g.\,\,z=-{\frac {\delta }{2}})$

以及

$f(x)=x^{4}$ ，其中 $Df(x^{\star }=0)=0$ 並且 $x^{T}D^{2}f(z)x=12z^{2}x^{2}\geq 0\quad \forall z$ 。

牢記這一小點，我們現在可以轉向數值最佳化程式。

數值解

以下所有演算法都將依賴於以下假設

(A1) 集合 $N(f,f(x^{(0)})=\{x\in \mathbb {R} ^{n}|f(x)\leq f(x^{(0)})\}$ 是緊湊的。

其中 $x^{(0)}$ 是演算法給定的某個初始值。這個假設的意義在於 *魏爾斯特拉斯定理*，它指出每個緊湊集都包含其 *上確界* 和其 *下確界*。因此，*(A1)* 保證了在 $N(f,f(x^{(0)})$ 中存在某個解。在這個全域性最小值 $x^{\star }$ 處，當然有 $D(f(x^{\star }))=0$ 。因此，考慮到上述討論，最佳化問題基本上可以歸結為求解方程組 $D(f(x^{\star }))=0$ 。

下降方向

這種方法的問題當然很普遍，因為 $D(f(x^{\star }))=0$ 對於極大值和鞍點也是成立的。因此，好的演算法應該確保極大值和鞍點都被排除為可能的解。極大值可以透過要求 ${\displaystyle f(x^{(k+1)})$ ，即我們限制自己於一個序列 $\{x^{(k)}\}_{k}$ ，使得函式值在每一步都減小。問題當然是在這是否總是可能的。幸運的是，這是可能的。其基本見解如下。在構建對映 $x^{(k+1)}=\varphi (x^{(k)})$ （即，從 $x^{(k)}$ 到 $x^{(k+1)}$ 的規則）時，我們有兩個自由度，即

方向 $d^{(k)}$ 和

步長 $\sigma ^{(k)}$ 。

因此，我們可以選擇我們想要移動的方向以到達 $x^{(k+1)}$ 以及這種移動需要多遠。所以，如果我們選擇 $d^{(k)}$ 和 $\sigma ^{(k)}$ 以“正確的方式”，我們可以有效地確保函式值下降。以下將提供此推理的正式表示。

引理：如果 $d^{(k)}\in \mathbb {R} ^{n}$ 並且 $Df(x)^{T}d^{(k)}<0$ ，那麼： $\exists {\bar {\sigma }}>0$ 使得

$f(x+\sigma ^{(k)}d^{(k)})<f(x)\quad \forall \sigma \in (0,{\bar {\sigma }})$

證明：因為 $Df(x)^{T}d^{(k)}<0$ 並且 $Df(x)^{T}d^{(k)}=\lim _{\sigma \rightarrow 0}{\frac {f(x+\sigma ^{(k)}d^{(k)})-f(x)}{\sigma ^{(k)}}}$ ，因此得出 $f(x+\sigma ^{(k)}d^{(k)})<f(x)$ 對於足夠小的 $\sigma ^{(k)}$ 。

下降法的通用過程

滿足此條件的方向向量 $d^{(k)}$ 被稱為下降方向。在實踐中，此引理允許我們使用以下程式來數值求解最佳化問題。

1. 定義序列 $\{x^{(k)}\}_{k}$ ，透過 $x^{(k+1)}=x^{(k)}+\sigma ^{(k)}d^{(k)}$ 遞迴地定義。

2. 從點 $x^{(k)}$ 的區域性資訊中選擇方向 $d^{(k)}$ 。

3. 選擇一個步長 $\sigma ^{(k)}$ ，確保演算法的收斂。

4. 如果 $|f(x^{(k+1)})-f(x^{(k)})|<\epsilon$ ，其中 $\epsilon >0$ 是某個選定的最小值容差，則停止迭代。

這個過程已經暗示了 $d^{(k)}$ 和 $\sigma ^{(k)}$ 的選擇不是獨立的，而是相互依賴的。特別要注意，即使該方法是下降方法（即 $d^{(k)}$ 和 $\sigma ^{(k)}$ 是根據引理 1選擇的），也不能保證收斂到最小值。乍一看，這似乎有點令人費解。如果我們找到一個序列 $\{x^{(k)}\}_{k}$ ，使得函式值在每一步都下降，人們可能會認為，在某個階段，即在k趨於無窮大的極限中，我們應該找到解決方案。為什麼情況並非如此，可以從借鑑於 W. Alt (2002, p. 76) 的以下例子中看出。

例 1

考慮以下例子，它雖然明顯是下降的，但並不收斂。令準則函式由下式給出

$f(x)=x^{2}$ ，令初始值為 $x^{(0)}=1$ ，考慮一個（常數）方向向量 $d^{(k)}=-1$ ，並選擇步長為 $\sigma ^{(k)}=({\frac {1}{2}})^{k+2}$ 。因此，序列 $\{x^{(k)}\}_{k}$ 的遞迴定義如下:

$(2)\quad x^{(k+1)}=x^{(k)}+({\frac {1}{2}})^{k+2}(-1)=x^{(k-1)}-\left({\frac {1}{2}}\right)^{k+1}-\left({\frac {1}{2}}\right)^{k+2}=x^{(0)}-\sum _{j=0}^{k}\left({\frac {1}{2}}\right)^{j+2}.$

注意 $x^{(k)}>0\,\,\forall \,\,k$ ，因此 $f(x^{(k+1)})<f(x^{(k)})\,\,\forall \,\,k$ ，因此該方法顯然是下降法。然而，我們發現

$(3)\quad \lim _{k\rightarrow \infty }x^{(k)}=\lim _{k\rightarrow \infty }x^{(0)}-\sum _{j=0}^{k-1}\left({\frac {1}{2}}\right)^{j+2}=\lim _{k\rightarrow \infty }1-{\frac {1}{4}}\left({\frac {1-\left({\frac {1}{2}}\right)^{k}}{\frac {1}{2}}}\right)=\lim _{k\rightarrow \infty }{\frac {1}{2}}+\left({\frac {1}{2}}\right)^{k+1}={\frac {1}{2}}\neq 0=x^{\star }.$

這種不收斂的原因要歸咎於步長 $\sigma ^{(k)}$ 下降過快。對於較大的 k，步長 $x^{(k+1)}-x^{(k)}$ 會變得非常小，從而導致收斂無法實現。因此，我們必須將步長與下降方向 $d^{(k)}$ 聯絡起來。

有效的步長

這種聯絡的顯而易見的思路是要求實際下降與一階近似成正比，即選擇 $\sigma ^{(k)}$ 使得存在一個常數 $c_{1}>0$ ，滿足

$(4)\quad f(x^{(k)}+\sigma ^{(k)}d^{(k)})-f(x^{(k)})\leq c_{1}\sigma ^{(k)}D(f(x^{(k)}))d^{(k)}<0.$

請注意，我們仍然只關注下降方向，因此 $Df(x^{(k)})^{T}d^{(k)}<0$ ，如上文引理 1 中所述。因此， $N(f,f(x^{(k)}))$ 的緊緻性意味著 LHS 的收斂，並且由 (4) 得出

$(5)\quad \lim _{k\rightarrow \infty }\sigma ^{(k)}D(f(x^{(k)}))d^{(k)}=0.$

最後，我們希望選擇一個序列 $\{x^{(k)}\}_{k}$ 使得 $\lim _{k\rightarrow \infty }D(f(x^{(k)}))=0$ ，因為這正是我們想要解決的必要的一階條件。在什麼條件下，(5) 實際上意味著 $\lim _{k\rightarrow \infty }D(f(x^{(k)}))=0$ ？首先，步長 $\sigma ^{(k)}$ 不能太快地趨於零。這正是我們在上面示例中遇到的情況。因此，要求步長從下方有界似乎是合理的，即：

$(6)\quad \sigma ^{(k)}\geq -c_{2}{\frac {Df(x^{(k)})^{T}d^{(k)}}{||d^{(k)}||^{2}}}>0$

對於某個常數 $c_{2}>0$ 。將 (6) 代入 (5) 最終得到

$(7)\quad f(x^{(k)}+\sigma ^{(k)}d^{(k)})-f(x^{(k)})\leq -c\left({\frac {Df(x^{(k)})^{T}d^{(k)}}{||d^{(k)}||}}\right)^{2},\quad c=c_{1}c_{2}$

這裡， $N(f,f(x^{(k)}))$ 的緊緻性保證了左側的收斂，因此

$(8)\quad \lim _{k\rightarrow \infty }-c({\frac {Df(x^{(k)})^{T}d^{(k)}}{||d^{(k)}||}})^{2}=\lim _{k\rightarrow \infty }{\frac {Df(x^{(k)})^{T}d^{(k)}}{||d^{(k)}||}}=0$

滿足 (4) 和 (6) 的步長被稱為 *有效步長*，並用 $\sigma _{E}^{(k)}$ 表示。條件 (6) 的重要性將在以下示例 1 的續篇中說明。

示例 1 (續)

請注意，正是 (6) 的失效導致了示例 1 未收斂。將示例中的步長代入 (6) 得到

$(6.1)\quad \sigma ^{(k)}=\left({\frac {1}{2}}\right)^{(k+2)}\geq -c_{2}{\frac {2x^{(k)}(-1)}{1}}=c_{2}\cdot 2({\frac {1}{2}}+\left({\frac {1}{2}})^{k+1}\right)\Leftrightarrow {\frac {1}{4(1+2^{(k)})}}\geq c_{2}>0$

因此，對於所有k，沒有常數 $c_{2}>0$ 滿足此不等式，如 (6) 所要求的那樣。因此，步長沒有從下界約束，並且下降得太快。為了真正認識 (6) 的重要性，讓我們稍微修改一下示例，並假設 $\sigma ^{(k)}=\left({\frac {1}{2}}\right)^{k+1}$ 。然後我們發現

$(6.2)\quad \lim _{k\rightarrow \infty }x^{(k+1)}=\lim _{k\rightarrow \infty }x^{(0)}-{\frac {1}{2}}\sum _{i}\left({\frac {1}{2}}\right)^{i}=\lim _{k\rightarrow \infty }\left({\frac {1}{2}}\right)^{k+1}=0=x^{\star },$

即，收斂確實發生了。此外，認識到此示例實際上滿足條件 (6)，因為

$(6.3)\quad \sigma ^{(k)}=\left({\frac {1}{2}}\right)^{(k+1)}\geq -c_{2}{\frac {2x^{(k)}(-1)}{1}}=c_{2}\cdot 2\left({\frac {1}{2}}\right)^{k}\Leftrightarrow {\frac {1}{4}}\geq c_{2}>0.$

選擇方向d

我們已經論證過， $\sigma ^{(k)}$ 和 $d^{(k)}$ 的選擇是相互交織的。因此，選擇“正確”的 $d^{(k)}$ 總是取決於相應的步長 $\sigma ^{(k)}$ 。那麼在這個語境中，“正確”意味著什麼？在上面，我們在方程 (8) 中展示了，選擇一個有效步長意味著

$(8')\quad \lim _{k\rightarrow \infty }-c({\frac {Df(x^{(k)})^{T}d^{(k)}}{||d^{(k)}||}})^{2}=\lim _{k\rightarrow \infty }{\frac {Df(x^{(k)})^{T}d^{(k)}}{||d^{(k)}||}}=0.$

因此，“正確”的方向向量將保證 (8') 意味著

$(9)\quad \lim _{k\rightarrow \infty }Df(x^{(k)})=0$

因為 (9) 是所選序列 $\{x^{(k)}\}_{k}$ 收斂的條件。因此，讓我們探索哪些方向可以選擇以產生 (9)。假設步長 $\sigma _{k}$ 是 _有效的_ 並定義

$(10)\quad \beta ^{(k)}={\frac {Df(x^{(k)})^{T}d^{(k)}}{||Df(x^{(k)})||||d^{(k)}||}}\quad \Leftrightarrow \quad \beta ^{(k)}||Df(x^{(k)})||={\frac {Df(x^{(k)})^{T}d^{(k)}}{||d^{(k)}||}}$

根據 (8') 和 (10)，我們知道

$(11)\quad \lim _{k\rightarrow \infty }\beta ^{(k)}||Df(x^{(k)})||=0.$

因此，如果我們從下方對 $\beta ^{(k)}$ 進行約束（即 $\beta ^{(k)}\leq -\delta <0$ ），(11) 意味著

$(12)\quad \lim _{k\rightarrow \infty }\beta ^{(k)}||Df(x^{(k)})||=\lim _{k\rightarrow \infty }||Df(x^{(k)})||=\lim _{k\rightarrow \infty }Df(x^{(k)})=0,$

其中 (12) 給出了序列 $\{x^{(k)}\}_{k}$ 收斂到解 $x^{\star }$ 的條件。由於 (10) 透過 $\beta ^{(k)}$ 隱式定義了方向向量 $d^{(k)}$ ，對 $\beta ^{(k)}$ 的要求直接轉化為對 $d^{(k)}$ 的要求。

為什麼使用梯度方法？

當考慮對 $\beta ^{(k)}$ 的條件時，很明顯“梯度方法”一詞從何而來。當 $\beta ^{(k)}$ 由以下給出時

$\beta _{k}={\frac {D(f(x))d^{(k)}}{||Df(x^{(k)})||||d^{(k)}||}}=\cos(Df(x^{(k)}),d^{(k)})$

我們有以下結果

鑑於 $\sigma ^{(k)}$ 是有效選擇的，並且 $d^{(k)}$ 滿足

$(13)\quad \cos(Df(x^{(k)}),d^{(k)})=\beta _{k}\leq -\delta <0$

我們有

$(14)\quad \lim _{k\rightarrow \infty }Df(x^{(k)})\rightarrow 0$

因此：如果 $x^{(k)}$ 處的負梯度和方向 $d^{(k)}$ 之間的角度始終小於直角，則會發生收斂。依賴於滿足 (13) 的 $d^{(k)}$ 的方法被稱為梯度方法。

換句話說：只要不朝與梯度垂直的方向移動，並且如果步長選擇有效，梯度方法 就可以保證收斂到解 $x^{\star }$ 。

梯度方法中的一些特定演算法

現在，讓我們探索這一類別中的三種特定演算法，它們在各自選擇的 $d^{(k)}$ 上有所不同。

牛頓法

牛頓法 是該領域中最受歡迎的方法。它是一種眾所周知的方法，用於求解所有型別方程的根，因此很容易應用於最佳化問題。牛頓法的主要思想是線性化方程組，得到

$(15)\quad g(x)=g({\hat {x}})+Dg({\hat {x}})^{T}(x-{\hat {x}})=0.$

(15) 可以很容易地求解出 x，因為解只是（假設 $Dg({\hat {x}})^{T}$ 是非奇異的）

$(16)\quad x={\hat {x}}-[Dg({\hat {x}})^{T}]^{-1}g({\hat {x}}).$

為了我們的目的，我們選擇 $g(x)$ 為梯度 $Df(x)$ ，並得出

$(17)\quad d_{N}^{(k)}=x^{(k+1)}-x^{(k)}=-[D^{2}f(x^{(k)})]^{-1}Df(x^{(k)})$

其中 $d_{N}^{(k)}$ 是所謂的牛頓方向。

牛頓法的性質

分析(17)揭示了牛頓法的主要性質

如果 $D^{2}f(x^{(k)})$ 是正定，則 $d_{N}^{k}$ 是按照引理1意義上的下降方向。

牛頓法使用一階和二階導數的區域性資訊來計算 $d_{N}^{k}$ 。

由於

$(18)\quad x^{(k+1)}=x^{(k)}+d_{N}^{(k)}$

牛頓法使用 $\sigma ^{(k)}=1$ 的固定步長。因此，牛頓法不一定是一種按照引理1意義上的下降方法。原因是固定步長 $\sigma ^{(k)}=1$ 可能大於引理1中給出的臨界步長 ${\bar {\sigma _{k}}}$ 。下面我們以Rosenbrock函式為例說明牛頓法不是下降方法。

該方法可能很耗時，因為在每一步k中計算 $[D^{2}f(x^{(k)})]^{-1}$ 很麻煩。在應用工作中，可以考慮使用近似方法。例如，可以每s步更新一次Hessian，或者可以依賴於區域性近似。這被稱為擬牛頓法，將在關於可變度量法的部分中討論。

為了確保該方法為下降方法，可以使用一個有效的步長 $\sigma _{E}^{(k)}$ ，並設定

$(19)\quad x^{(k+1)}=x^{(k)}-\sigma _{E}^{(k)}d_{N}^{(k)}=x^{(k)}-\sigma _{E}^{(k)}[D^{2}f(x^{k})]^{-1}Df(x^{(k)})$

最速下降法

另一種常用的方法是最速下降法。這種方法的思想是選擇方向 $d^{(k)}$ ，使得函式值f的下降最大。儘管這個過程乍一看很合理，但它實際上使用的資訊比牛頓法少，因為它忽略了Hessian關於函式曲率的資訊。特別是在下面的應用中，我們將看到幾個關於這個問題的例子。

最速下降法的方向向量由下式給出：

$(20)\quad d_{SD}^{(k)}=argmax_{d:||d||=r}\{-Df(x^{(k)})^{T}d\}=argmin_{d:||d||=r}\{Df(x^{(k)})^{T}d\}=-r{\frac {Df(x)}{||Df(x)||}}$

證明：根據柯西-施瓦茨不等式，可以得到

$(21)\quad {\frac {Df(x)^{T}d}{||Df(x)||||d||}}\geq -1\quad \Leftrightarrow \quad Df(x)^{T}d\geq -r||Df(x)||.$

顯然 (21) 在 $d^{(k)}=d_{SD}^{(k)}$ 下成立，如 (20) 所示。

特別要注意的是，對於 $r=||Df(x)||$ ，我們有 $d_{SD}^{(k)}=-Df(x^{(k)})$ ，即我們只是沿著負梯度的方向“行走”。與牛頓法相比，最速下降法沒有使用固定的步長，而是選擇了一個有效的步長 $\sigma _{E}^{(k)}$ 。因此，最速下降法定義了序列 $\{x^{(k)}\}_{k}$ 為

$(22)\quad x^{(k+1)}=x^{(k)}+\sigma _{E}^{(k)}d_{SD}^{(k)},$

其中 $\sigma _{E}^{(k)}$ 是一個有效的步長，而 $d_{SD}^{(k)}$ 是在 (20) 中給出的最速下降方向。

最速下降法的性質

對於 $d_{SD}^{(k)}=-r{\frac {Df(x)}{||Df(x)||}}$ ，最速下降法定義了一個下降方向，正如引理 1所述，因為

$Df(x)^{T}d_{SD}^{(k)}=Df(x)^{T}\left(-r{\frac {Df(x)}{||Df(x)||}}\right)=-{\frac {r}{||Df(x)||}}Df(x)^{T}Df(x)<0.$

最速下降法僅在區域性上是合理的，因為它忽略了二階資訊。

特別是當目標函式很平坦（即解 $x^{\star }$ 位於一個“山谷”中）時，由最速下降法定義的序列會劇烈波動（見下面的應用，尤其是 Rosenbrock 函式的例子）。

由於它不需要海森矩陣，因此最速下降法的計算和實現很容易且快速。

可變度量法

牛頓法和最速下降法都屬於可變度量法類的一般方法。此類方法依賴於更新公式

$(23)\quad x^{k+1}=x^{k}-\sigma _{E}^{(k)}[A^{k}]^{-1}Df(x^{k}).$

如果 $A^{k}$ 是一個對稱且正定矩陣，(23) 定義了一個下降方法，因為 $[A^{k}]^{-1}$ 正定當且僅當 $A^{k}$ 也正定。要看到這一點，只需考慮譜分解

$(24)\quad A^{k}=\Gamma \Lambda \Gamma ^{T}$

其中 $\Gamma$ 和 $\Lambda$ 分別是具有特徵向量和特徵值的矩陣。如果 $A^{k}$ 正定，所有特徵值 $\lambda _{i}$ 嚴格為正。因此它們的逆 $\lambda _{i}^{-1}$ 也為正，因此 $[A^{k}]^{-1}=\Gamma \Lambda ^{-1}\Gamma ^{T}$ 顯然是正定的。但是然後，用 $d^{(k)}=[A^{k}]^{-1}Df(x^{k})$ 代入得到

$(25)\quad Df(x^{k})^{T}d^{(k)}=-Df(x^{k})^{T}[A^{k}]^{-1}Df(x^{k})\equiv -v^{T}[A^{k}]^{-1}v\leq 0,$

即該方法確實是下降的。到目前為止，我們還沒有指定矩陣 $A^{k}$ ，但很容易看出，對於兩種特定的選擇，可變度量法恰好與最速下降法和牛頓法分別一致。

對於 $A^{k}={\mathcal {I}}$ （其中 ${\mathcal {I}}$ 是單位矩陣），可以得出

$(22')\quad x^{k+1}=x^{k}-\sigma _{E}^{(k)}Df(x^{k})$

這僅僅是 *最速下降法*。

對於 $A^{k}=D^{2}f(x^{k})$ ，可以得出

$(19')\quad x^{k+1}=x^{k}-\sigma _{E}^{(k)}[D^{2}f(x^{k})]^{-1}Df(x^{k})$

這僅僅是使用步長 $\sigma _{E}^{(k)}$ 的 *牛頓法*。

擬牛頓法

對於 *變數度量法* 而言，另一個自然的候選方法是 *擬牛頓法*。與標準 *牛頓法* 相比，它使用了一種有效的步長，使其成為一種下降方法，並且與 *最速下降法* 相比，它沒有完全忽略有關函式曲率的區域性資訊。因此，*擬牛頓法* 由矩陣 $A^{k}$ 上的兩個要求定義

$A^{k}$ 應該近似於海森矩陣 $D^{2}f(x^{k})$ 以利用有關曲率的資訊，以及

更新 $A^{k}\rightarrow A^{k+1}$ 應該很容易，這樣演算法仍然相對快（即使在高維情況下）。

為了確保第一個要求， $A^{k+1}$ 應該滿足所謂的 *擬牛頓方程*

$(26)\quad A^{k+1}(x^{(k+1)}-x^{(k)})=Df(x^{(k+1)})-Df(x^{(k)})$

因為所有滿足 (26) 的 $A^{k}$ 反映了有關海森矩陣的資訊。為了看到這一點，請考慮定義為以下函式的 $g(x)$

$(27)\quad g(x)=f(x^{k+1})+Df(x^{k+1})^{T}(x-x^{k+1})+{\frac {1}{2}}(x-x^{k+1})^{T}A^{k+1}(x-x^{k+1}).$

那麼很明顯， $g(x^{k+1})=f(x^{k+1})$ 並且 $Dg(x^{k+1})=Df(x^{k+1})$ 。所以 $g(x)$ 和 $f(x)$ 在 $x^{(k+1)}$ 的鄰域內是相當相似的。為了確保 $g(x)$ 在 $x^{(k)}$ 處也是一個好的近似，我們希望選擇 $A^{k+1}$ 使得在 $x^{(k)}$ 處的梯度相同。透過

$(28)\quad Dg(x^{k})=Df(x^{k+1})-A^{k+1}(x^{k+1}-x^{k})$

很明顯， $Dg(x^{k})=Df(x^{k})$ 如果 $A^{k+1}$ 滿足 (26) 中給出的擬牛頓方程。但隨後可以得出

$(29)\quad A^{k+1}(x^{k+1}-x^{k})=Df(x^{k+1})-Dg(x^{k})=Df(x^{k+1})-Df(x^{k})=D^{2}f(\lambda x^{(k)}+(1-\lambda )x^{(k+1)})(x^{k+1}-x^{k}).$

因此，只要 $x^{(k+1)}$ 和 $x^{(k)}$ 之間相差不大， $A^{k+1}$ 滿足 (26) 是 $D^{2}f(x^{(k)})$ 的一個很好的近似。

現在讓我們來談談第二個要求，即 $A^{k}$ 的更新應該很容易。一種特定的演算法是所謂的 BFGS 演算法。該演算法的主要優點是它只使用已經計算出的元素 $\{x^{(k)}\}_{k}$ 和 $\{Df(x^{(k)})\}_{k}$ 來構建更新 $A^{(k+1)}$ 。因此，不需要計算新的實體，只需要跟蹤 x 序列和梯度序列即可。作為 BFGS 演算法的起點，可以提供任何正定矩陣（例如，單位矩陣或在 $x^{(0)}$ 處的 Hessian）。然後，BFGS 更新公式 由下式給出

$(30)\quad A^{k}=A^{k-1}-{\frac {(A^{k-1})^{T}\gamma _{k-1}^{T}\gamma _{k-1}A^{k-1}}{\gamma _{k-1}^{T}A^{k-1}\gamma _{k-1}}}+{\frac {\Delta _{k-1}\Delta _{k-1}^{T}}{\Delta _{k-1}^{T}\gamma _{k-1}}}$

其中 $\Delta _{k-1}=Df(x^{(k)})-Df(x^{(k-1)})$ 以及 $\gamma _{k-1}=x^{(k)}-x^{(k-1)}$ 。此外，(30) 確保所有 $A^{k}$ 都是正定的，正如變尺度法 所要求的那樣，是下降的。

擬牛頓法的性質

它使用關於 $f(x)$ 曲率的二階資訊，矩陣 $A^{k}$ 與海森矩陣 $D^{2}f(x)$ 有關。

儘管如此，它確保了簡單快速的更新（例如，透過 BFGS 演算法），因此它比標準牛頓法更快。

它是一種下降方法，因為 $A^{k}$ 是正定的。

它相對容易實現，因為 BFGS 演算法在大多數數值或統計軟體包中都可用。

應用

為了比較這些方法並說明演算法之間的差異，我們現在將評估最速下降法、標準牛頓法和擬牛頓法在有效步長下的效能。我們使用該領域中的兩個經典函式，即 Himmelblau 函式和 Rosenbrock 函式。

應用 I：Himmelblau 函式

Himmelblau 函式由下式給出

$(31)\quad f(x,y)=(x^{2}+y-11)^{2}+(x+y^{2}-7)^{2}$

這個四階多項式有四個極小值，四個鞍點和一個極大值，因此演算法有足夠的失敗可能性。在下圖中，我們顯示了等高線圖和函式的 3D 圖，用於不同的起始值。

在圖 1 中，我們顯示了函式以及所有三種方法在起始值為 $(2,-4)$ 時的路徑。顯然，三種方法沒有找到相同的極小值。原因當然是由最速下降法的不同方向向量造成的——透過忽略關於曲率的資訊，它選擇的方向與兩個牛頓法完全不同（尤其是在圖 1 的右面板中）。

現在考慮起始值為 $(4.5,-0.5)$ ，如圖 2 所示。最重要的是，現在所有方法都找到了不同的解。最速下降法找到的解與兩個牛頓法不同，這並不令人驚訝。但是，兩個牛頓法收斂到不同的解，這表明了步長 $\sigma$ 的重要性。使用擬牛頓法在第一次迭代中選擇一個有效的步長，兩種方法在第一次迭代後的所有迭代中都有不同的步長和方向向量。從圖中可以看到：結果可能非常重要。

應用 II：Rosenbrock 函式

Rosenbrock 函式由下式給出

$(32)\quad f(x,y)=100(y-x^{2})^{2}+(1-x)^{2}\$

雖然這個函式只有一個極小值，但它對於最佳化問題來說是一個有趣的函式。原因是這個 U 形函式的谷非常平坦（參見圖 3 和 4 的右面板）。對於計量經濟學家來說，這個函式可能很有趣，因為在最大似然估計的情況下，平坦的準則函式經常出現。因此，在下面圖 3 和 4 中顯示的結果對於具有此問題的函式來說似乎是相當通用的。

我使用這個函式和所採用的演算法的經驗是，圖 3（給定一個初始值為 $(2,-5)$ ）似乎很有代表性。與上面的 Himmelblau 函式相比，所有演算法都找到了相同的解，鑑於只有一個最小值，這是可以預期的。更重要的是，不同方法選擇的路徑，反映了各自方法的不同屬性。可以看出，**最速下降法**波動相當劇烈。這是由於它不使用曲率資訊，而是來回跳躍“山丘”之間的“山谷”。兩種牛頓法選擇更直接的路徑，因為它們使用二階資訊。兩種牛頓法的主要區別當然在於步長。圖 3 顯示，**擬牛頓法**在穿過山谷時使用非常小的步長。相反，**牛頓法**的步長是固定的，因此它直接跳向解的方向。雖然人們可能會認為這是**擬牛頓法**的缺點，但需要注意的是，通常這些較小的步長伴隨著更高的穩定性，即演算法不太可能跳躍到不同的解。這可以在圖 4 中看到。

圖 4 考慮了初始值為 $(-2,-2)$ ，顯示了使用固定步長的**牛頓法**的主要問題 - 該方法可能會“越界”，因為它沒有下降。在第一步中，**牛頓法**（在圖中顯示為紫色線）跳出了山谷，只是在下一步迭代中反彈回來。在這種情況下，仍然會收斂到最小值，因為每側的梯度都指向中心的單個山谷，但可以很容易地想象這種情況不成立的函式。這種跳躍的原因是二階導數非常小，因此步長 $[Df(x^{(k)})]^{-1}Df(x^{(k)}))$ 由於 Hessian 的逆而變得非常大。根據我的經驗，我建議使用有效的步長來更好地控制各自方法選擇的路徑。

應用 III：最大似然估計

對於計量經濟學家和統計學家，**最大似然估計器**可能是數值最佳化演算法最重要的應用。因此，我們將簡要介紹估計程式如何適應上述框架。

像往常一樣，令

$(33)\quad f(Y|X;\theta )$

是給定 X 時的 Y 的**條件密度**，引數為 $\theta$ ，以及

$(34)\quad l(\theta ;Y|X)$

是引數 $\theta$ 的**條件似然函式**。

如果我們假設資料是**獨立同分布 (iid)**，那麼樣本對數似然函式為

$(35)\quad {\mathcal {L}}(\theta ;Y_{1},\dots ,Y_{N})=\sum _{i}^{N}{\mathcal {L}}(\theta ;Y_{i})=\sum _{i}^{N}\log(l(\theta ;Y_{i})).$

因此，最大似然估計歸結為對引數 $\theta$ 最大化 (35)。為了簡單起見，我們只決定使用**牛頓法**來解決這個問題，序列 $\{\theta ^{(k)}\}_{k}$ 由遞迴定義為

$(36)\quad D_{\theta }{\mathcal {L}}(\theta ^{(k+1)})=D_{\theta }{\mathcal {L}}(\theta ^{(k)})+D_{\theta \theta }{\mathcal {L}}(\theta ^{(k)})(\theta ^{(k+1)}-\theta ^{(k)})=0\Leftrightarrow \theta ^{(k+1)}=\theta ^{(k)}-[D_{\theta \theta }{\mathcal {L}}(\theta ^{(k)})]^{-1}D_{\theta }{\mathcal {L}}(\theta ^{(k)})$

其中 $D_{\theta }{\mathcal {L}}$ 和 $D_{\theta \theta }{\mathcal {L}}$ 分別表示關於引數向量 $\theta$ 的一階導數和二階導數，而 $[D_{\theta \theta }{\mathcal {L}}(\theta ^{(k)})]^{-1}D_{\theta }{\mathcal {L}}(\theta ^{(k)})$ 定義了 (17) 中給出的牛頓方向。由於最大似然估計總是假設條件密度（即誤差項的分佈）在引數 $\theta$ 範圍內是已知的，因此上述方法可以很容易地應用。

最大似然估計的具體示例

假設一個簡單的線性模型

$(37a)\quad Y_{i}=\beta _{1}+\beta _{x}X_{i}+U_{i}$

其中 $\theta =(\beta _{1},\beta _{2})'$ 。那麼，Y 的條件分佈由U 的分佈決定，即

$(37b)\quad p(Y_{i}-\beta _{1}-\beta _{x}X_{i})\equiv p_{\mid X_{i}}(Y_{i})=p(U_{i}),$

其中 $p$ 表示密度函式。一般來說，最大化 (35) 沒有閉合形式解（至少如果U 恰好不是正態分佈），因此必須使用數值方法。因此，假設U 服從學生 t 分佈，自由度為m 自由度，因此 (35) 由下式給出

$(38)\quad {\mathcal {L}}(\theta ;Y_{\mid X})=\sum \log \left({\frac {\Gamma ({\frac {m+1}{2}})}{{\sqrt {\pi m}}\Gamma ({\frac {m}{2}})}}(1+{\frac {(y_{i}-x_{i}^{T}\beta )^{2}}{m}})^{-{\frac {m+1}{2}}}\right)$

我們只是使用了t分佈密度函式的定義。(38)可以簡化為

$(39)\quad {\mathcal {L}}(\theta ;Y_{\mid X})=N\left[\log \left(\Gamma \left({\frac {m+1}{2}}\right)\right)-\log \left({\sqrt {\pi m}}\Gamma \left({\frac {m}{2}}\right)\right)\right]-{\frac {m+1}{2}}\sum \log \left(1+{\frac {(y_{i}-x_{i}^{T}\beta )^{2}}{m}}\right)$

所以（如果我們假設自由度m是已知的）

$(40)\quad {\textit {argmax}}\left\{{\mathcal {L}}(\theta ;Y_{\mid X})\right\}={\textit {argmax}}\left\{-{\frac {m+1}{2}}\sum \log \left(1+{\frac {(y_{i}-x_{i}^{T}\beta )^{2}}{m}}\right)\right\}={\textit {argmin}}\left\{\sum \log \left(1+{\frac {(y_{i}-x_{i}^{T}\beta )^{2}}{m}}\right)\right\}.$

使用準則函式

$(41)\quad f(\beta _{1},\beta _{2})=\sum \log \left(1+{\frac {(y_{i}-\beta _{1}-\beta _{2}x_{i})^{2}}{m}}\right)$

上述方法可以很容易地應用於計算最大似然估計量 $({\hat {\beta }}_{1,ML},{\hat {\beta }}_{2,ML})$ ，最大化(41)。

參考文獻

Alt, W. (2002): "Nichtlineare Optimierung", Vieweg: Braunschweig/Wiesbaden
Härdle, W. and Simar, L. (2003): "Applied Multivariate Statistical Analysis", Springer: Berlin Heidelberg
Königsberger, K. (2004): "分析 I", 施普林格出版社: 柏林海德堡
Ruud, P. (2000): "經典計量經濟學理論", 牛津大學出版社: 紐約