等距迴歸

問題

給定值 $a_{1},...,a_{n}$ 及其對應的正權重 $w_{1},...,w_{n}$ ，儘可能接近地用 $y_{1},...y_{n}$ 逼近它們，這些值滿足 $y_{i}\leq y_{j}$ 類約束。

給定

值

\mathbf {a} \in {\mathbb {R}}^{n}

,

權重

\mathbf {w} \in {\mathbb {R}}^{n}

，使得對於所有

i

都有

w_{i}>0

,

約束集

E\subset \{1,...,n\}^{2}

,

最小化

\sum _{i}w_{i}\left(y_{i}-a_{i}\right)^{2}

相對於

\mathbf {y} \in {\mathbb {R}}^{n}

，受制於

y_{i}\leq y_{j}

對所有

(i,j)\in E

如果所有權重都等於 1，則該問題稱為無權單調回歸，否則稱為有權單調回歸。

圖 $G=(V=\{1,2,...n\},E=E)$ 必須是無環的。例如，約束 $x_{2}\leq x_{5}$ 和 $x_{5}\leq x_{2}$ 不能同時存在。

例子

最小化

3(y_{1}-2)^{2}+(y_{2}-1)^{2}+(y_{3}-4)^{2}+2y_{4}^{2}

受制於

y_{1}\leq y_{2}

y_{2}\leq y_{3}

y_{2}\leq y_{4}

線性順序

特別有趣的是線性順序單調回歸。

給定

值

\mathbf {a} \in {\mathbb {R}}^{n}

,

權重

\mathbf {w} \in {\mathbb {R}}^{n}

，使得對於所有

i

都有

w_{i}>0

,

最小化

\sum _{i}w_{i}\left(y_{i}-a_{i}\right)^{2}

相對於

\mathbf {y} \in {\mathbb {R}}^{n}

，受制於

y_{1}\leq y_{2}\leq \;...\;\leq y_{n}

對於線性順序單調回歸，存在一種簡單的線性演算法，稱為#相鄰違反者池演算法 (PAVA)。

如果所有權重都等於 1，則該問題稱為無權線性排序單調回歸。

線性順序單調回歸可以被認為是用非遞減函式逼近給定的 1 維觀測序列。它類似於平滑樣條，區別在於我們使用單調性而不是平滑性來消除資料中的噪聲。

例子

Linear ordering isotonic regression for 106 points. — 線性排序單調回歸用於 $106$ 個點。

單調回歸用於 $10^{6}$ 個點。
左邊：點 $(x_{i},a_{i})$ ，其中 $a_{i}=0{\text{ or }}1$ 。 $a_{i}=1$ 的機率由邏輯函式決定。僅顯示了 1000 個點。
右邊：單調回歸的結果（黑色曲線）與邏輯函式（紅色曲線）對比。邏輯函式以高精度恢復。

線性排序單調回歸作為模型

有時，線性排序單調回歸被應用於一組觀測值 $(x_{i},y_{i}),1\leq i\leq n$ ，其中 $x$ 是解釋變數，y 是因變數。這些觀測值按其 $x$ 排序，然後將單調回歸應用於 $y$ ，同時附加約束 $x_{i}=x_{i+1}\Rightarrow y_{i}=y_{i+1}$ 對於所有 $i$ 。

其他變體

非歐幾里得度量

有時使用其他度量代替歐幾里得度量，例如 $L_{1}$ 度量

\sum _{i}w_{i}\left|y_{i}-a_{i}\right|

或未加權的 $L_{\infty }$ 度量

\max _{i}\left|y_{i}-a_{i}\right|

網格上的點

有時，值被放置在二維或更高維度的網格上。擬合值必須沿著每個維度增加，例如

最小化

\sum _{ij}w_{ij}\left(y_{ij}-x_{ij}\right)^{2}

關於 y，受制於

y_{ij}\leq y_{kl}{\text{ if }}i\leq j,\ k\leq l

演算法

相鄰違規者演算法

相鄰違規者演算法 (PAVA) 是一種用於線性階等距迴歸的線性時間（和線性記憶體）演算法。

初步考慮

該演算法基於以下定理

定理：對於一個最佳解，如果 $a_{i}\geq a_{i+1}$ ，那麼 $y_{i}=y_{i+1}$

證明：假設相反，即 $y_{i}<y_{i+1}$ 。然後對於足夠小的 $\varepsilon$ ，我們可以設定

y_{i}^{\mathrm {new} }=y_{i}+w_{i+1}\varepsilon

y_{i+1}^{\mathrm {new} }=y_{i+1}-w_{i}\varepsilon

這會減少總和 $\sum _{i}w_{i}(y_{i}-a_{i})^{2}$ 而不違反約束。因此，我們最初的解不是最優解。矛盾。

由於 $y_{i}=y_{i+1}$ ，我們可以將兩點 $(w_{i},a_{i})$ 和 $(w_{i+1},a_{i+1})$ 合併為一個新點 $\left(w_{i}+w_{i+1},{w_{i}a_{i}+w_{i+1}a_{i+1} \over w_{i}+w_{i+1}}\right)$ .

然而，在將兩個點 $(w_{i},a_{i})$ 和 $(w_{i+1},a_{i+1})$ 合併到新的點 $\left(w_{i}^{\prime },a_{i}^{\prime }\right)$ 後，這個新點可能會違反約束 $a_{i-1}\leq a_{i}^{\prime }$ 。在這種情況下，它應該與 $(i-1)$ 個點合併。如果合併後的點違反了它的約束，它應該與前一個點合併，依此類推。

演算法

輸入

包含 n 個值的陣列：initial_values[1] ... initial_values[n]

包含 n 個權重的陣列：weights[1] ... weights[n]

輸出

名為 results 的陣列 (results[1] ... results[n])，透過 i 對 weights[i] * (initial_values[i] - results[i]) ** 2 的總和進行最小化

演算法

初始化

pooled_value[1] = initial_values[1]

pooled_weight[1] = weights[1]

num_segments = 1

segment_end[0] = 0

segment_end[1] = 1

對於 current_index = 2 到 n 執行

num_segments++

pooled_value[num_segments] = initial_values[current_index]

pooled_weight[num_segments] = weights[current_index]

當 num_segments > 1 且 pooled_value[num_segments] < pooled_value[num_segments - 1] 時執行

pooled_value[num_segments - 1] =

(pooled_weight[num_segments] * pooled_value[num_segments] + pooled_weight[num_segments - 1] * pooled_value[num_segments - 1]) /

(pooled_weight[num_segments] + pooled_weight[num_segments - 1])

pooled_weight[num_segments - 1] += pooled_weight[num_segments]

num_segments--

segment_end[num_segments] = current_index

對於 segment_index = 1 到 num_segments 執行

對於 value_index = segment_end[segment_index - 1] + 1 到 segment_end[segment_index] 執行

result[value_index] = pooled_value[segment_index]

這裡 $S$ 定義了每個新點對應於哪些舊點。

任意情況演算法

在任意情況下，這可以作為二次問題解決。最佳演算法需要 $\Theta (n^{4})$ 時間，參見

Maxwell, WL and Muckstadt, JA (1985), "Establishing consistent and realistic reorder intervals in production-distribution systems", Operations Research 33, pp. 1316-1341.
Spouge J, Wan H, and Wilbur WJ (2003), "Least squares isotonic regression in two dimensions", J. Optimization Theory and Apps. 117, pp. 585-605.

實現

R

isoreg

函式 isoreg 執行非加權線性排序等距迴歸。它不需要任何包。對於許多簡單的情況，它就足夠了。

使用示例

x=sort(rnorm(10000))
y=x+rnorm(10000)
y.iso=isoreg(y)$yf
plot(x,y,cex=0.2)
lines(x,y.iso,lwd=2,col=2)

該isoreg函式還將線性排序等距迴歸實現為模型

x=rnorm(10000)
y=x+rnorm(10000)
y.iso=isoreg(x,y)$yf
plot(x,y,cex=0.2)
lines(sort(x),y.iso,lwd=2,col=2)

Iso

Iso 包包含三個函式

pava - 線性排序等距迴歸，加權或非加權。
biviso - 2-d 等距迴歸
ufit - 單峰排序（先遞增後遞減）

使用示例

install.packages("Iso") # should be done only once
library("Iso") # should be done once per session
x=sort(rnorm(10000))
y=x+rnorm(10000)
y.iso=pava(y)
plot(x,y,cex=0.2); lines(x,y.iso,lwd=2,col=2)

isotone

這是最先進的包。它包含兩個函式

gpava - 線性排序等距迴歸，加權或非加權，適用於任何指標。類似於isoreg, gpava可以將線性排序等距迴歸實現為模型。
activeSet - 適用於任何指標的一般等距迴歸。

使用示例

install.packages("isotone") # should be done only once
library("isotone") # should be done once per session
x=sort(rnorm(10000))
y=x+rnorm(10000)
y.iso=gpava(y)$x
plot(x,y,cex=0.2); lines(x,y.iso,lwd=2,col=2)

速度比較

由於所有三個庫都以某種方式實現了 PAVA 演算法，因此我們可以比較它們的速度。

從下面的圖形可以看出，對於非加權線性排序等距迴歸 (LOIR) 和 $n>200$ ，isoreg應該使用。對於加權 LOIR 和非加權 LOIR 以及 $n\leq 200$ ，pava應該使用。至於gpava, 它應該只用於非歐幾里得指標。

此外，R 上加權簡單排序等距迴歸的實現遠非完美。

Java

Weka 是一款免費的機器學習演算法集合，用於資料探勘任務，由懷卡託大學開發，包含一個等距迴歸分類器。該分類器深深植根於 Weka 的類層次結構中，無法在沒有 Weka 的情況下使用。

Python

雖然 scikit-learn 實現等距迴歸，但 Andrew Tulloch 為線性排序等距迴歸製作了該演算法的 Cython 實現，該實現速度提高了 14 到 5000 倍，具體取決於資料大小。參見 [Speeding up isotonic regression in scikit-learn by 5,000x https://tullo.ch/articles/speeding-up-isotonic-regression/]。如果您只需要程式碼，請點選 [這裡 https://gist.github.com/ajtulloch/9447845#file-_isotonic-pyx]。