跳轉到內容

統計/數值方法/分位數迴歸

來自華夏公益教科書,開放的書籍,為開放的世界

分位數迴歸由 Koenker 和 Bassett (1978) 提出,旨在補充經典的線性迴歸分析。核心在於將“位置模型中的普通分位數擴充套件到更一般的線性模型類別,其中條件分位數具有線性形式”(Buchinsky (1998), p. 89)。在普通最小二乘法(OLS)中,主要目標是確定隨機變數 的條件均值,給定一些解釋變數 ,得到期望值 。分位數迴歸超越了這一點,使人們能夠在條件分佈函式的任何分位數上提出這樣的問題。以下旨在向讀者介紹分位數迴歸背後的思想。首先,討論了分位數 的問題,然後簡要概述了最小二乘估計器,重點是普通最小二乘法。最後,介紹了分位數迴歸,並利用波士頓房價資料集提供了一個例子。

為分位數迴歸做準備

[編輯 | 編輯原始碼]

什麼是分位數

[編輯 | 編輯原始碼]

Gilchrist (2001, p.1) 將分位數描述為“只是與人口(排序)樣本中指定比例相對應的值”。例如,一個非常常用的分位數是中位數 ,它等於排序資料中 0.5 的比例。這對應於機率為 0.5 的分位數。分位數由此標記了大小相等、連續的子集的邊界。(Gilchrist,2001)

更正式地說,設 是具有分佈函式 的連續隨機變數,使得

這表明對於分佈函式 ,可以確定給定值 出現的機率 。現在,如果處理分位數,則需要執行相反的操作,即想要確定給定機率 的樣本資料集對應的值 。一個 分位數是指樣本資料中對應於值 的機率

用數學方法表達 分位數的另一種形式如下

是函式 的反函式,機率為

請注意,存在兩種可能的情況。一方面,如果分佈函式 單調遞增,則對每個 都能很好地定義分位數。但是,如果分佈函式 不是嚴格單調遞增,則對於某些 ,無法定義唯一的分位數。在這種情況下,使用給定機率 可以採用的最小值

這兩種情況,無論是否具有嚴格單調遞增函式,都可以用以下方法描述

也就是說, 等於函式 的逆函式,而這反過來又等於 的下確界,使得分佈函式 大於或等於給定的機率 ,即 分位數。(Handl (2000))

然而,一個經常出現的問題是經驗分佈函式是一個階梯函式。Handl (2000) 描述了這個問題的解決方案。第一步,用觀察值 來替換分佈函式 中的連續隨機變數 ,重新構建公式 4,從而得到經驗分佈函式 。這給出了以下等式

經驗分佈函式可以透過觀察值的數量 分割成大小相等、連續的子集。這將導致以下步驟

其中 ,並且 是排序後的觀察值。因此, 的取值範圍僅受觀察值 及其性質的限制。但是,如果想要實現不同的子集,即不同的分位數,但這些分位數可以從觀察值的數量 推匯出來呢?

因此,解決階躍函式問題所需的進一步步驟是透過用連續線性函式 替換經驗分佈函式來平滑它。為了做到這一點,有一些可用的演算法,Handl(2000)對它們進行了很好的描述,Hyndman 和 Fan(1996)則更詳細地介紹了不同演算法的評估及其在計算機軟體包中的效率。只有這樣,才能將資料集劃分為適合分析目的的任何分位數。(Handl (2000))

普通最小二乘法

[edit | edit source]

在迴歸分析中,研究人員感興趣的是分析給定一組解釋變數 中包含的資訊時,因變數 的行為。普通最小二乘法是一種標準方法,用於指定線性迴歸模型並透過最小化平方誤差之和來估計其未知引數。這導致對因變數條件分佈的均值函式的近似。如果滿足以下四個假設,OLS 就可以實現 BLUE 屬性,即最佳線性無偏估計量:

1. 解釋變數 是非隨機的

2. 誤差項 的期望值為零,即

3. 同方差性 - 誤差項 的方差是恆定的,即

4. 沒有自相關,即

然而,這些假設中經常會違反一個或多個,導致 OLS 不再是最優線性無偏估計量。分位數迴歸可以解決以下問題:(i)誤差項在分佈中並不總是恆定的,從而違反了同方差性的公理。(ii)透過關注均值作為位置度量,會丟失關於分佈尾部的資訊。(iii)OLS 對極端異常值很敏感,極端異常值會顯著扭曲結果。(Montenegro (2001))

分位數迴歸

[edit | edit source]

方法

[edit | edit source]

分位數迴歸本質上是透過將條件分佈函式切分成多個片段,將其轉換為條件分位數函式。這些片段描述了給定解釋變數 時,條件因變數 的累積分佈,使用方程 4 中定義的分位數。

對於給定解釋變數 和固定 ,給定因變數 的條件分位數函式定義為條件分佈函式 的第 分位數 。為了估計條件分佈函式的位置,條件中位數 可以用作條件均值的替代方法。(Lee (2005))

將分位數迴歸與OLS進行比較,可以很好地說明分位數迴歸。在OLS中,用引數函式 對隨機樣本 () 的條件分佈函式進行建模,其中 表示自變數, 表示相應的估計值,而 表示條件均值,那麼我們得到以下最小化問題

由此,我們得到條件期望函式 。現在,以類似的方式,我們可以進行分位數迴歸。中心特徵由此變為 ,它充當檢查函式。

該檢驗函式確保了

1. 所有 都是正數

2. 比例與機率 相符

處理 L1 距離時,必須使用這種具有兩個支撐點的函式,因為 L1 距離可能為負數。

在分位數迴歸中,現在將最小化以下函式

這裡,與 OLS 相反,最小化是在由 定義的每個子部分進行的,其中 -分位數函式的估計值是透過引數函式 獲得的。(Koenker 和 Hallock (2001))

以下特徵描述了分位數迴歸,並將其與其他迴歸方法區分開來

1. 可以透過 的不同值來表徵因變數 的整個條件分佈

2. 可以檢測異方差

3. 如果資料存在異方差,則中位數迴歸估計量可能比均值迴歸估計量更有效

4. 如方程 9 所示的最小化問題可以透過線性規劃方法有效地解決,從而使估計變得容易

5. 分位數函式也對單調變換等變。也就是說 ,對於任何函式

6. 分位數對於異常值是穩健的 (Lee (2005))

分位數迴歸的圖形說明

[edit | edit source]

在進行數值示例之前,以下小節旨在以圖形方式說明分位數迴歸的概念。首先,作為該說明的起點,請考慮圖1。對於給定的解釋變數值,條件依賴變數的密度由氣球的大小表示。氣球越大,密度越高,對於給定的,最大的氣球即為模式,即密度最高的點。分位數迴歸本質上連線了跨不同值的等大小氣球,即機率,從而可以關注解釋變數與因變數在不同分位數之間的相互關係,如可以在圖2中看到。這些子集由分位數線標記,反映了給定時因變數的機率密度。

圖1:單個解釋變數的出現機率

圖2中使用的示例最初來自Koenker 和 Hallock (2000),它說明了一個經典的經驗應用,即恩格爾 (1857) 對家庭食品支出(作為因變數)與家庭收入(作為解釋變數)之間關係的調查。在分位數迴歸中, 的條件函式被 - 分位數分割。在分析中, - 分位數,由細藍色線表示,這些線將不同的顏色部分隔開,疊加在資料點上。條件中位數 () 用粗深藍色線表示,條件均值用淺黃色線表示。因此,顏色部分表示由分位數生成的資料子集。

圖2:恩格爾曲線,其中中位數用深藍色突出顯示,均值用黃色突出顯示

圖2 可以理解為表示三維圖的等高線圖,其中食品支出和收入分別位於 y 軸和 x 軸。第三個維度來自相應值的機率密度。因此,值的密度由藍色陰影的深淺表示,顏色越深,出現的機率越高。例如,在邊界處,藍色非常淺,給定資料集的機率密度相對較低,因為它們由分位數 0.05 到 0.1 和 0.9 到 0.95 標記。重要的是要注意,圖2 代表每個子集的個體出現機率,但是,分位數使用條件函式的累積機率。例如, 為 0.05 表示預計有 5 的觀測值將低於這條線,例如, 為 0.25 表示預計有 25 的觀測值預計將低於這條線和 0.1 線。

圖 2 中的圖形表明,誤差方差在整個分佈中並不恆定。隨著家庭收入的增加,食品支出的離散程度也隨之增加。此外,資料向左偏斜,這從分位數線的間距在中位數以上減小以及中位數位於平均數之上可以看出。這表明等方差性公理被違反,而 OLS 依賴於該公理。因此,統計學家最好採用其他分析方法,例如分位數迴歸,它實際上可以處理異方差性。

分位數迴歸分析

[編輯 | 編輯原始碼]

為了給出分位數迴歸分析能力的數值示例,並在統計應用的邊界內將其與 OLS 進行比較,下一節將分析在 md-base 網站上可用的波士頓房價資料集的一些選定變數。這些資料最初由 Belsley、Kuh 和 Welsch(1980)進行分析。原始資料包含來自波士頓都會區的 14 個變數的 506 個觀測值。

本分析使用自住房屋的中位數價值(一個度量變數,縮寫為 H)作為因變數,並研究表 1 所示的 4 個自變數的影響。選擇這些變數是因為它們最能說明 OLS 和分位數迴歸之間的差異。為了簡化分析,目前忽略了處理與找到引數模型的正確規範相關的潛在困難。因此,假設了一個簡單的線性迴歸模型。關於漸近標準誤差的估計,例如,參見 Buchinsky(1998),它說明了設計矩陣自舉估計量,或者也可以參見 Powell(1986),用於基於核的漸近標準誤差估計。

表 1:解釋變數
名稱 簡寫 含義 型別
非零售尾部 T 非零售商業用地比例 度量
房間數 O 每棟房屋的平均房間數 度量
年齡 A 1940 年之前自建房屋的比例 度量
師生比 P 師生比 度量

接下來,首先估計了 OLS 模型。在表中指示了小數點後三位數字,因為一些估計結果非常小。

透過 XploRe 計算,得到以下表中所示的結果。

表 2:OLS 估計值
36,459 0,021 38,010 0,001 -0,953


透過分位數迴歸分析此資料集,利用 分位數 ,模型的特徵如下

僅僅為了說明目的,併為了進一步促進讀者對分位數迴歸的理解,簡要說明了 分位數的方程,所有其他分位數的方程都遵循類似的模式

表 3: 分位數迴歸估計
0,1 23,442 0,087 29,606 -0,022 -0,443
0,3 15,7130 -0,001 45,281 -0,037 -0,617
0,5 14,8500 0,022 53,252 -0,031 -0,737
0,7 20,7910 -0,021 50,999 -0,003 -0,925
0,9 34,0310 -0,067 51,353 0,004 -1,257

現在,如果將表 2 中 OLS 估計的結果與表 3 中分位數迴歸的結果進行比較,會發現後者可以對解釋變數對因變數的影響做出更加細緻的推斷。特別值得關注的是,對於同一個估計,分位數估計與其他分位數相比相對差異較大。

可能最有趣的結果,也是最能說明分位數迴歸機制和與 OLS 區別的是關於非零售商業用地比例獨立變數的結果 。OLS 表明,該變數對因變數,即房屋價值,有積極影響,其估計值為 ,也就是說,在波士頓房價資料中,房屋價值隨著非零售商業用地比例 的增加而增加。

觀察分位數迴歸提供給我們的輸出,我們會發現一個更差異化的影像。對於 0.1 分位數,我們發現估計值為 ,這表明對於這個低分位數,這種影響似乎比 OLS 所示的影響更強烈。在這裡,當非零售商業比例 上升時,房價也會上升。然而,考慮到其他分位數,這種影響並沒有那麼強烈,對於 0.7 分位數和 0.9 分位數,這種影響似乎甚至被引數 所表明,在這些分位數中,房價受到非零售商業面積 增加的負面影響。非零售商業面積 對房價這個因變數的影響似乎非常模稜兩可,取決於你檢視哪個分位數。OLS 的一般建議是,如果非零售商業面積 增加,房價也會增加,顯然不能推廣。因此,基於 OLS 估計的政策建議可能極具誤導性。

直觀上,人們會認為房屋平均房間數 對房價有積極影響,這一點是正確的。OLS 估計值為 ,也支援了這一點。現在,分位數迴歸也證實了這一說法,但它也允許得出更細緻的結論。0.1 分位數與其他分位數(尤其是 0.9 分位數)之間似乎存在顯著差異。對於最低分位數,估計值為 ,而對於 0.9 分位數,估計值為 。觀察其他分位數,可以發現波士頓房價資料集與 0.9 分位數類似,估計值為 ,以及 。因此,對於最低分位數,額外房間數 對房價的影響似乎遠小於其他所有分位數。

另一個說明性例子是分析建於 1940 年之前的自住單元比例 及其對房價的影響。雖然 OLS 表明這個變數幾乎沒有影響,估計值為 ,但從分位數迴歸來看,情況卻截然不同。對於 0.1 分位數,房齡對房價有負面影響,估計值為 。將此與最高分位數進行比較,最高分位數的估計值為 ,可以發現房價現在突然受到房齡的積極影響。因此,除了最高分位數 0.9 分位數以外,所有其他分位數都證實了負面影響。

最後但並非最不重要的是,看看師生比例及其對房屋價值的影響,人們發現OLS以的估值表明的趨勢也反映在分位數迴歸分析中。然而,在分位數迴歸中,人們可以觀察到師生比例對房價的影響隨著不同分位數的增加而逐漸增加,從第0.1個分位數的估計值為到第0.9個分位數的估值值為

這種分析清楚地表明,與OLS相比,使用分位數迴歸時,分位數迴歸允許人們做出更具差異化的陳述。有時OLS估計甚至會誤導解釋變數和因變數之間的真實關係,因為對樣本的不同子集,效應可能非常不同。

對於分佈函式,可以為給定的值確定發生機率。現在分位數恰恰相反。也就是說,人們希望為樣本資料集的給定機率確定相應的值。在OLS中,主要目標是確定隨機變數的條件均值,給定一些解釋變數。分位數迴歸超越了這一點,它使我們能夠在條件分佈函式的任何分位數上提出這樣的問題。它關注於給定分位數的因變數與其解釋變數之間的相互關係。因此,分位數迴歸克服了OLS面臨的各種問題。通常,誤差項在整個分佈中並不恆定,從而違反了同方差性公理。此外,透過將平均值作為位置度量,會丟失有關分佈尾部的資訊。最後但並非最不重要的是,OLS 對極端異常值很敏感,這會顯著扭曲結果。正如波士頓住房資料的小例子所表明的那樣,有時基於OLS分析的政策可能無法產生預期結果,因為人口的某個子集對該政策的反應並不強烈,或者更糟糕的是,以OLS沒有表明的負面方式做出反應。


參考文獻

[編輯 | 編輯原始碼]

Abrevaya, J. (2001): “The effects of demographics and maternal behavior on the distribution of birth outcomes,” in Economic Application of Quantile Regression, ed. by B. Fitzenberger, R. Koenker, and J. A. Machade, pp. 247–257. Physica-Verlag Heidelberg, New York.

Belsley, D. A., E. Kuh, and R. E. Welsch (1980): Applied Multivariate Statistical Analysis. Regression Diagnostics, Wiley.

Buchinsky, M. (1998): “Recent Advances in Quantile Regression Models: A Practical Guidline for Empirical Research,” Journal of Human Resources, 33(1), 88–126.

Cade, B.S. and B.R. Noon (2003): A gentle introduction to quantile regression for ecologists. Frontiers in Ecology and the Environment 1(8): 412-420. http://www.fort.usgs.gov/products/publications/21137/21137.pdf

Cizek, P. (2003): “Quantile Regression,” in XploRe Application Guide, ed. by W. Härdle, Z. Hlavka, and S. Klinke, chap. 1, pp. 19–48. Springer, Berlin.

Curry, J., and J. Gruber (1996): “Saving Babies: The Efficacy and Costs of Recent Changes in the Medicaid Eligibility of Pregnant Women,” Journal of Political Economy, 104, 457–470.

Handl, A. (2000): “Quantile,” available at http://www.wiwi.uni-bielefeld.de/~frohn/Lehre/Datenanalyse/Skript/daquantile.pdf

Härdle, W. (2003): Applied Multivariate Statistical Analysis. Springer Verlag, Heidelberg. Hyndman, R. J., and Y. Fan (1996): “Sample Quantiles in Statistical Packages,” The American Statistician, 50(4), 361 – 365.

Jeffreys, H., and B. S. Jeffreys (1988): Upper and Lower Bounds. Cambridge University Press.

Koenker, R., and G. W. Bassett (1978): “Regression Quantiles,” Econometrica, 46, 33–50.

Koenker, R., and G. W. Bassett (1982): “Robust tests for heteroscedasticity based on Regression Quantiles,” Econometrica, 61, 43–61.

Koenker, R. 和 K. F. Hallock (2000): “分位數迴歸簡介”,可在 http://www.econ.uiuc.edu/~roger/research/intro/intro.html 獲取。

Koenker, R. 和 K. F. Hallock (2001): “分位數迴歸”,《經濟學視角雜誌》,15(4),143–156。

Lee, S. (2005): “MECT1 分位數迴歸講義”,可在 http://www.homepages.ucl.ac.uk/~uctplso/Teaching/MECT/lecture8.pdf 獲取。

Lewit, E. M., L. S. Baker, H. Corman 和 P. Shiono (1995): “低出生體重直接成本”,《兒童的未來》,5,35–51。

mdbase (2005): “統計方法學和互動式資料分析”,可在 http://www.quantlet.org/mdbase/ 獲取。

Montenegro, C. E. (2001): “智利工資分佈:性別重要嗎?分位數迴歸方法”,世界銀行發展研究小組工作論文系列 20。

Powell, J. (1986): “刪失迴歸分位數”,《計量經濟學雜誌》,32,143– 155。

Scharf, F. S., F. Juanes 和 M. Sutherland (1998): “從散點圖邊緣推斷生態關係:迴歸技術的比較”,《生態學》,79(2),448–460。

XploRe (2006): “XploRe”,可在 http://www.xplore-stat.de/index_js.html 獲取。

華夏公益教科書