微積分/多元最佳化：拉格朗日

問題

在前面的章節中，我們討論瞭如何使用微積分找到單變數函式 $y=f(x)$ 的最優解，方法是找到所有滿足 $f'(x)=0$ 的點。但是，如果我們給定一個二元函式，例如 $z=f(x,y)$ ？更重要的是，如果我們給定了需要遵循的約束呢？單變數模型根本無法擴充套件。

一個變數，一個約束

考慮最佳化問題 $\min {f(x)}$ ，給定一個約束 $g(x)=h$ 。

首先將約束寫成等於 0 的形式 - 因此 $g(x)-h=0$ 。然後，系統的拉格朗日函式定義為 $L(x,\lambda )=f(x)+\lambda (g(x)-h)$ 。我們需要最佳化兩個變數 - $x$ 和 $\lambda$ 。然後找到關於變數的導數

${\frac {\partial L}{\partial x}}=f'(x)+\lambda g'(x)$

${\frac {\partial L}{\partial \lambda }}=g(x)-h$

將它們設為 0。然後，最優集 $\{x,\lambda \}$ 是 $f'(x)+\lambda g'(x)=0$ 和 $g(x)=h$ 的解。

待辦事項	編輯說明一些作者只會正式對變數求偏導數，並將約束直接設為 0；這完全沒問題，也很容易證明這兩種方法是等效的。這很重要，因為在使用 KKT 條件進行不等式約束的約束最佳化時（在本節中沒有涵蓋），對約束求偏導數會將問題轉換為拉格朗日等式問題，這不是同一個問題。很容易將兩者混淆。

一個簡單的單變數示例

示例。 在約束條件 $x^{2}=25$ 的情況下，求解最佳化問題 $\min {5x+3}$ .

那麼拉格朗日系統為 $L(x,\lambda )=5x+3+\lambda (x^{2}-25)$ 。分別對它們求導

${\frac {\partial L}{\partial x}}=5+\lambda (2x)$

${\frac {\partial L}{\partial \lambda }}=x^{2}-25$

將第二個導數設為零 - 我們得到 $x=\pm 5$ 。將其代入第一個：我們得到 $5+10\lambda =0$ ，即 $\lambda =-{\frac {1}{2}}$ 。將其代入第二個：我們得到 $\lambda ={\frac {1}{2}}$ 。在這種情況下，最佳的最小值是集合 $\{x,\lambda \}=\{-5,{\frac {1}{2}}\}$ （這是我們想要的），而最佳的最大值是集合 $\{x,\lambda \}=\{5,{\frac {-1}{2}}\}$ .

重要的是要意識到拉格朗日並不保證特定解是極小值 - 我們需要自己測試解 - 正如在一個例子中，解實際上是極大值。

實際上，這是一個非常糟糕的例子，正如你可能已經看到的那樣 - 在這種情況下，簡單地用約束條件給出的兩個有效值來測試最佳化問題完全是合適的！當我們有多個變數和約束條件需要考慮時，它會更有用。

兩個變數，一個約束

考慮在約束條件 $g(x,y)=h$ 的情況下，求解最佳化問題 $\min {f(x,y)}$ .

拉格朗日系統幾乎與上面討論的單變數情況相同，只是我們需要考慮三個偏導數（兩個變數+一個約束）： $L(x,y,\lambda )=f(x,y)+\lambda (g(x,y)-h)$ 。現在分別求偏導數

${\frac {\partial L}{\partial x}}=f'_{x}(x,y)+\lambda g'_{x}(x,y)$ （第一個變數x）

${\frac {\partial L}{\partial y}}=f'_{y}(x,y)+\lambda g'_{y}(x,y)$ （第二個變數y）

${\frac {\partial L}{\partial \lambda }}=g(x,y)-h$ （約束條件）

將它們設為 0 - 最優三元組 $\{x,y,\lambda \}$ 是該方程組的解。

一個二元例子

例子. 求解最佳化問題 $\max {5x+3y}$ ，給定約束條件 $x^{2}+y^{2}=25$ 。

解決方案。

建立拉格朗日函式

$L(x,y,\lambda )=(5x+3y)+\lambda (x^{2}+y^{2}-25)$

求偏導數

${\frac {\partial L}{\partial x}}=5+\lambda (2x)$

${\frac {\partial L}{\partial y}}=3+\lambda (2y)$

${\frac {\partial L}{\partial \lambda }}=x^{2}+y^{2}-25$

將它們設為 0，我們有

$5+2\lambda x=0$

$3+2\lambda y=0$

$x^{2}+y^{2}=25$

消去 $\lambda$ 從前兩個方程得到x和y之間的關係

從第二個方程式， $2\lambda y=-3$ ，或者 $\lambda ={\frac {-3}{2y}}$ 。類似地，從第一個方程式， $2\lambda x=-5$ ，或者 $\lambda ={\frac {-5}{2x}}$ 。將這兩個結果與 $\lambda$ 結合，我們得到 ${\frac {-3}{2y}}={\frac {-5}{2x}}$ 。簡化，這是 ${\frac {-3}{y}}={\frac {-5}{x}}$ ，或者 ${\frac {-3x}{y}}=-5$ ，這是 ${\frac {-3x}{-5}}=y$ 。這與 $y={\frac {3x}{5}}$ 相同。

現在將它代入第三個方程式以求解x和y

$x^{2}+y^{2}=25$

$x^{2}+{\frac {9x^{2}}{25}}=25$

${\frac {34x^{2}}{25}}=25$

$x=\pm {\sqrt {\frac {625}{34}}}$ （大約為±4.288）

同樣， $y={\frac {3x}{5}}=\pm {\frac {3}{5}}{\frac {25}{\sqrt {34}}}$ （大約為±2.572）。

記住，這是一個最大化問題，因此我們發現 $x={\sqrt {\frac {625}{34}}}$ 和 $y={\frac {3}{5}}{\sqrt {\frac {625}{34}}}$ （另一個解是最小值）。我們可以求解約束 $\lambda$ 的值，但這在這裡沒有必要，因為問題只要求我們求解最大值。請注意，如上所述，拉格朗日乘數法傾向於給出邊界解，而我們則需要找出其中哪一個是實際解（如果有的話）。

我們必須使用拉格朗日乘數法嗎？實際上，不是。這個問題可以透過將約束中的一個變數寫成另一個變數的函式來簡化為單變數形式： $y=\pm {\sqrt {25-x^{2}}}$ ，然後將它代入最佳化問題

$\max {(5x+3y)}=\max {(5x\pm 3({{\sqrt {25-x^{2}}})})}$

並使用單變數微積分技術來解決問題！但是，當有 **三個** 變數時，你能做到嗎？不行，因為你很可能只能將問題簡化為兩個變數。

一般形式

在本節中，考慮大小為 *n* 的向量 **x**： ${\textbf {x}}={\begin{pmatrix}x_{1}\\x_{2}\\x_{3}\\...\\x_{n}\end{pmatrix}}$ .

定義。 (拉格朗日函式)

考慮最佳化問題 $\min {f({\textbf {x}})}$ ，給定一個包含 *m* 個約束的向量 ${\textbf {g}}(x)={\begin{pmatrix}g_{1}({\textbf {x}})\\g_{2}({\textbf {x}})\\g_{3}({\textbf {x}})\\...\\g_{m}({\textbf {x}})\end{pmatrix}}=0$ .

該系統的拉格朗日函式定義為 $L({\textbf {x}},\lambda )=f({\textbf {x}})+\lambda ({\textbf {g}}(x))$ .

然後對向量 **x** 和 **λ** 求偏導數：求 ${\frac {\partial L}{\partial {\textbf {x}}}}$ 和 ${\frac {\partial L}{\partial \lambda }}$ .

注意，該系統有 *m* + *n* 個變數，你需要對它們求 *m* + *n* 個偏導數。這可能會變得相當混亂。解決方法是使用矩陣微積分.

這可能會讓你感到害怕，但你不必擔心。平均的微積分 3 課程只會考慮 2 到 3 個變數。

正則性條件

本節需要線性代數知識；因此，平均的微積分 3 課程不太可能涉及這方面內容。

在考慮拉格朗日 FONC（一階必要條件）時，正則性條件適用

定義。 (拉格朗日 FONC)

考慮函式 $f$ 的一個最小化點 ${\textbf {x}}$ ，該點也是正則的。那麼存在一個 $\lambda$ ，使得 $\nabla L({\textbf {x}},\lambda )$ = 0.

記住，這是一個 **必要** 條件。這意味著

僅僅因為一個點滿足拉格朗日 FONC，並不意味著它是一個最小化點或最大化點。
不滿足拉格朗日 FONC 的點不可能是最小值或最大值。

定義。 （正則性條件）給定一個約束向量 ${\textbf {g}}(x)=0$ ，正則性條件表示每個約束在特定點的梯度必須線性無關。

如果該條件不滿足，拉格朗日 FONC 不適用於該點。只有一個約束時，此條件無關緊要，因為根據定義，單個向量是線性無關的。

示例。

設 ${\textbf {g}}(x,y)$ 定義為 ${\textbf {g}}(x)={\binom {(x+1)^{2}+y^{2}-1}{(x-2)^{2}+y^{2}-4}}$ 。判斷這些向量在點 (0,0) 處是否正則。

解決方案。

求梯度

$\nabla g_{1}(x,y)={\binom {2(x+1)}{2y}},\nabla g_{2}(x,y)={\binom {2(x-2)}{2y}}$

代入點 (0,0)

$\nabla g_{1}(0,0)={\binom {2}{0}},\nabla g_{2}(0,0)={\binom {-4}{0}}$

現在問題簡化為檢查向量 ${\binom {2}{0}}$ 和 ${\binom {-4}{0}}$ 是否線性無關。為此，回顧線性無關要求給定兩個常數 $\alpha _{1}$ 和 $\alpha _{2}$ ， $\alpha _{1}{\binom {2}{0}}+\alpha _{2}{\binom {-4}{0}}={\binom {0}{0}}$ 的解必須僅在 $\alpha _{1}=\alpha _{2}=0$ 時出現。

這顯然不是這種情況：一個簡單的例子是設定 $\alpha _{1}=2$ 和 $\alpha _{2}=1$ 。因此，拉格朗日 FONC 不適用於該點的問題。