統計/數值方法/分位數迴歸
分位數迴歸是由 Koenker 和 Bassett (1978) 提出,旨在補充傳統的線性迴歸分析。 關鍵在於將“位置模型中的普通分位數擴充套件到更一般的線性模型類別,其中條件分位數具有線性形式”(Buchinsky (1998),第 89 頁)。 在普通最小二乘法 (OLS) 中,主要目標是確定隨機變數 的條件均值,給定一些解釋變數 ,得到期望值 。 分位數迴歸超越了這一點,使人們能夠在條件分佈函式的任何分位數處提出這樣的問題。 以下旨在向讀者介紹分位數迴歸背後的思想。 首先,討論了 分位數 的問題,然後簡要概述了最小二乘估計,重點介紹了普通最小二乘法。 最後,介紹了分位數迴歸,並提供了一個使用波士頓房價資料集的示例。
Gilchrist (2001,第 1 頁) 將分位數描述為“對應於總體(有序)樣本中特定比例的值”。 例如,一個非常常用的分位數是 中位數 ,它等於有序資料中 0.5 的比例。 這對應於機率為 0.5 的分位數。 分位數標記了大小相等、連續子集的邊界。(Gilchrist,2001)
更正式地說,令 是一個具有分佈函式 的連續隨機變數,使得
它指出對於分佈函式 ,可以確定給定值 的出現機率 。 現在,如果處理分位數,則需要做相反的事情,即需要確定樣本資料集中給定機率 對應的值 。 在樣本資料中, 分位數是指值 的機率 。
用數學公式表達 分位數的另一種形式如下
是對於機率 ,構成函式 的逆函式的值。
注意,這裡存在兩種情況。一方面,如果分佈函式 單調遞增,則對於每個 ,分位數是明確定義的。然而,如果分佈函式 不是嚴格單調遞增,那麼對於某些 ,無法定義唯一的量化。在這種情況下,我們將使用 可以取的最小值,作為給定機率 的分位數。
兩種情況,即具有嚴格單調遞增函式和不具有嚴格單調遞增函式的情況,都可以用以下方式描述:
也就是說, 等於函式 的逆,而這反過來等於所有 的下確界,使得分佈函式 大於或等於給定的機率 ,即第 分位數。(Handl (2000))
然而,一個經常出現的問題是,經驗分佈函式是一個階梯函式。Handl(2000)描述了這個問題的解決方案。第一步,人們用一個這樣的方式重新表述方程式 4,即用 (觀測值)來代替分佈函式 中的連續隨機變數 。這將導致經驗分佈函式 。這給出了以下等式
經驗分佈函式可以透過觀察次數 分割成大小相等、連續的子集。這將引導人們進行以下步驟
當 且 是排序後的觀測值。因此, 可以取值的範圍僅受觀測值 及其性質的限制。但是,如果想要實現不同的子集,即不同的分位數,但這些分位數可以從觀測值 中推匯出來,該怎麼辦呢?
因此,解決階梯函式問題的進一步步驟是透過用連續線性函式 替換經驗分佈函式來平滑經驗分佈函式。為了做到這一點,有幾種可用的演算法,這些演算法在 Handl (2000) 中有很好的描述,並且在 Hyndman 和 Fan (1996) 中更詳細地描述了不同演算法及其在計算機包中的效率評估。只有這樣才能將資料集劃分為適合分析目的的分位數。(Handl (2000))
普通最小二乘法
[edit | edit source]在迴歸分析中,研究人員對分析給定一組解釋變數 中包含的資訊時,因變數 的行為感興趣。普通最小二乘法是一種標準方法,用於指定線性迴歸模型並透過最小化平方誤差之和來估計其未知引數。這導致對因變數條件分佈的均值函式的近似。OLS 在滿足以下四個假設時,具有 BLUE 屬性,即最佳線性無偏估計:
1. 解釋變數 是非隨機的
2. 誤差項 的期望值為零,即
3. 同方差性 - 誤差項 的方差是恆定的,即
4. 無自相關,即 ,
然而,通常這些假設中的一項或多項會被違反,導致OLS不再是最優的線性無偏估計量。因此,分位數迴歸可以解決以下問題:(i) 錯誤項通常在分佈中並不總是恆定的,從而違反了同方差性公理。 (ii) 透過將均值作為位置度量,分佈尾部的資訊會丟失。 (iii) OLS 對極端異常值敏感,這些異常值會顯著扭曲結果。(蒙特內哥羅 (2001))
分位數迴歸本質上是透過將條件分佈函式切分成多個片段,將其轉化為條件分位數函式。這些片段描述了給定解釋變數的條件依賴變數的累積分佈。利用方程4中定義的分位數,可以實現這一點。
對於給定解釋變數且固定,的條件依賴變數,條件分位數函式定義為條件分佈函式的分位數。為了估計條件分佈函式的位置,可以使用條件中位數作為條件均值的替代方案。(李 (2005))
當將分位數迴歸與OLS進行比較時,可以很好地說明分位數迴歸。在OLS中,用引數函式對隨機樣本()的條件分佈函式進行建模,其中表示自變數,表示相應的估計值,而表示條件均值,則得到以下最小化問題
由此得到條件期望函式。現在,以類似的方式,人們可以在分位數迴歸中進行。因此,中心特徵變成了,它充當校驗函式。
該校驗函式確保
1. 所有 都是正數
2. 比例取決於機率
如果處理 L1 距離,則必須使用具有兩個支撐點的函式,因為 L1 距離可能變為負數。
在分位數迴歸中,現在最小化以下函式
這裡,與 OLS 相反,最小化是在由 定義的每個子部分進行的,其中 分位數函式的估計值是透過引數函式 獲得的。(Koenker and Hallock (2001))
區分分位數迴歸與其他迴歸方法的特徵如下:
1. 可以透過 的不同值來描述因變數 的整個條件分佈。
2. 可以檢測異方差性。
3. 如果資料是異方差的,則中位數迴歸估計量可能比均值迴歸估計量更有效。
4. 等式 9 中所示的最小化問題可以透過線性規劃方法有效地解決,從而使估計變得容易。
5. 分位數函式也對單調變換具有等變性。也就是說,對於任何函式。
6. 分位數對異常值具有魯棒性(Lee (2005))。
在進行數值示例之前,以下小節試圖用圖形來闡述分位數迴歸的概念。首先,作為該說明的起點,請參考圖 1。對於給定的解釋變數值,條件依賴變數的密度由氣球的大小表示。氣球越大,密度越高,對於給定的,其密度最大處即為眾數,對應著最大的氣球。分位數迴歸本質上是在解釋變數的不同值之間連線著大小相同的氣球,即機率,從而使人們能夠關注解釋變數和依賴變數在不同分位數上的相互關係,如在圖 2 中所示。這些由分位數線標記的子集反映了給定的情況下,依賴變數的機率密度。

圖 2 中使用的示例最初來自 Koenker 和 Hallock(2000 年),並說明了經典的實證應用,即恩格爾(1857 年)對家庭食品支出(作為因變數)與家庭收入(作為自變數)之間關係的研究。在分位數迴歸中,的條件函式被分位數分割。在分析中,分位數(由將不同顏色區域分隔開來的細藍色線表示)疊加在資料點上。條件中位數()由粗深的藍色線表示,條件均值由淺黃色的線表示。因此,顏色區域代表由分位數生成的子集資料。

圖 2 可以理解為表示 3D 圖形的等高線圖,其中食品支出和收入分別位於 y 軸和 x 軸上。第三個維度來自相應值的機率密度。因此,值的密度由藍色陰影的深淺表示,顏色越深,出現的機率越高。例如,在藍色的外邊界,機率密度對於給定的資料集相對較低,因為它們由分位數 0.05 到 0.1 和 0.9 到 0.95 標記。重要的是要注意,圖 2 代表每個子集的個體出現機率,但是,分位數利用了條件函式的累積機率。例如,為 0.05 表示預計有 5的觀察值落在該線下方,例如,為 0.25 表示預計有 25的觀察值落在該線和 0.1 線下方。
圖 2 中的圖形表明,誤差方差在整個分佈中並不恆定。隨著家庭收入的增加,食品支出的離散程度也隨之增加。此外,資料向左傾斜,這從分位數線在中位數以上間距縮小以及中位數位於平均數上方可以看出。這表明同方差性公理被違反,而 OLS 依賴於此公理。因此,統計學家最好採用另一種分析方法,例如分位數迴歸,該方法實際上能夠處理異方差性。
為了給出分位數迴歸分析能力的數值示例,並在統計應用的範圍內將其與 OLS 進行比較,下一節將分析 md-base 網站上可用的波士頓住房資料集的一些選定變數。該資料最初由 Belsley、Kuh 和 Welsch (1980) 分析。原始資料包括來自波士頓大都市區的 14 個變數的 506 個觀測值。
本分析使用自有住房的中位數價值(一個度量變數,縮寫為 H)作為因變數,並調查表 1 中所示的 4 個自變數的影響。選擇這些變數是因為它們最能說明 OLS 和分位數迴歸之間的差異。為了簡化分析,目前忽略了處理與找到引數模型的正確規格相關的潛在困難。因此假設了一個簡單的線性迴歸模型。有關漸近標準誤差的估計,請參見例如 Buchinsky (1998),它說明了設計矩陣引導估計器,或者選擇 Powell (1986) 來進行基於核的漸近標準誤差估計。
| 名稱 | 簡寫 | 是什麼 | 型別 |
|---|---|---|---|
| 非零售尾部 | T | 非零售商業用地比例 | 度量 |
| 房間數 | O | 平均每套住房的房間數 | 度量 |
| 年齡 | A | 1940 年之前自建房屋的比例 | 度量 |
| 師生比 | P | 師生比 | 度量 |
下面首先估計了 OLS 模型。由於一些估計值非常小,所以在表格中顯示了小數點後三位數字。
透過 XploRe 計算,得到以下表格所示的結果。
| 36,459 | 0,021 | 38,010 | 0,001 | -0,953 |
透過分位數迴歸分析該資料集,使用 分位數 ,該模型的特徵如下:
僅出於說明目的,為了進一步增進讀者對分位數迴歸的理解,簡要說明了 分位數的方程,所有其他分位數都遵循類似的方程
| 0,1 | 23,442 | 0,087 | 29,606 | -0,022 | -0,443 |
| 0,3 | 15,7130 | -0,001 | 45,281 | -0,037 | -0,617 |
| 0,5 | 14,8500 | 0,022 | 53,252 | -0,031 | -0,737 |
| 0,7 | 20,7910 | -0,021 | 50,999 | -0,003 | -0,925 |
| 0,9 | 34,0310 | -0,067 | 51,353 | 0,004 | -1,257 |
現在,如果將表 2 中 OLS 估計結果與表 3 中的分位數迴歸估計結果進行比較,就會發現後者可以對解釋變數對因變數的影響做出更細緻的推斷。特別是那些與同一估計中其他分位數相比,差異相對較大的分位數估計結果。
可能最有趣的結果,也是最能說明分位數迴歸工作機制並指出其與 OLS 差異的結果,是關於非零售商業用地面積比例的獨立變數 的結果。OLS 表明,該變數對因變數(房屋價值)有正向影響,估計值為 ,也就是說,房屋價值隨著非零售商業用地面積比例 在波士頓住房資料中增加而增加。
從分位數迴歸提供的輸出結果來看,我們發現了一個更具差異性的圖景。對於 0.1 分位數,我們發現估計值為 ,這表明對於這個低分位數,其影響似乎比 OLS 所示的更強烈。這裡,當非零售企業的比例 上升時,房價也會上升。然而,考慮到其他分位數,這種影響就不那麼明顯了,對於 0.7 和 0.9 分位數,這種影響似乎甚至被引數 和 所示,反轉了。這些值表明,在這些分位數中,房價受到非零售商業用地 增加的負面影響。非零售商業用地 對房價因變數的影響似乎非常模糊,取決於觀察哪個分位數。OLS 的一般建議是,如果非零售商業用地比例 增加,房價就會上漲,顯然不能被推廣。因此,基於 OLS 估計的政策建議可能會產生嚴重的誤導。
直觀地,我們可以認為房屋平均房間數對房價有正向影響。這也可以透過OLS得到證實,估計值為。而分位數迴歸也證實了這一說法,但它也允許我們得出更細緻的結論。在0.1分位數與其他分位數(尤其是0.9分位數)之間存在顯著差異。對於最低分位數,估計值為,而對於0.9分位數,估計值為。觀察其他分位數,我們可以發現波士頓房價資料集中其他分位數的估計值與0.9分位數的估計值相似,分別為、和。因此,對於最低分位數,額外房間數對房價的影響似乎明顯小於其他所有分位數。
另一個說明性的例子是分析1940年之前建造的業主自住單元的比例及其對房價的影響。OLS表明該變數幾乎沒有影響,估計值為。但分位數迴歸則給出了不同的看法。對於0.1分位數,房齡對房價有負面影響,估計值為。與最高分位數(估計值為)相比,我們發現房價現在突然受到房齡的正向影響。因此,除了最高分位數(0.9分位數)外,所有其他分位數都證實了房價的負向影響。
最後但並非最不重要的是,觀察師生比例 及其對房價的影響,發現 OLS 所指示的趨勢,其值為 ,也反映在分位數迴歸分析中。然而,在分位數迴歸中,我們可以看到師生比例 對房價的影響在不同的分位數上逐漸增加,從估計值為 的 0.1 分位數到估計值為 的 0.9 分位數。
這一分析清楚地表明,與 OLS 相比,分位數迴歸允許我們使用分位數迴歸進行更細緻的陳述。有時 OLS 估計甚至可能誤導瞭解釋變數和因變數之間真實關係的理解,因為對樣本的不同子集的影響可能會有很大差異。
結論
[edit | edit source]對於一個分佈函式 ,我們可以確定對於一個給定的值 ,出現的機率 。現在分位數恰恰相反。也就是說,我們希望確定對於樣本資料集的給定機率 ,對應於該機率的值 。在 OLS 中,我們的主要目標是確定隨機變數 的條件均值,給定一些解釋變數 ,。分位數迴歸超越了這一點,它使我們能夠在條件分佈函式的任何分位數上提出這樣的問題。它關注的是因變數與其解釋變數在給定分位數上的相互關係。因此,分位數迴歸克服了 OLS 面臨的各種問題。通常,誤差項在整個分佈中並不恆定,從而違反了同方差性公理。此外,透過將均值作為位置度量,關於分佈尾部的資訊會丟失。最後但並非最不重要的是,OLS 對極端異常值很敏感,這會嚴重扭曲結果。如波士頓房價資料的示例所示,有時基於 OLS 分析的政策可能無法取得預期效果,因為特定的人口子集對該政策的反應並不強烈,或者更糟的是,以 OLS 未指示的負面方式做出反應。
參考文獻
[edit | edit source]Abrevaya, J. (2001): “The effects of demographics and maternal behavior on the distribution of birth outcomes,” in Economic Application of Quantile Regression, ed. by B. Fitzenberger, R. Koenker, and J. A. Machade, pp. 247–257. Physica-Verlag Heidelberg, New York.
Belsley, D. A., E. Kuh, and R. E. Welsch (1980): Applied Multivariate Statistical Analysis. Regression Diagnostics, Wiley.
Buchinsky, M. (1998): “Recent Advances in Quantile Regression Models: A Practical Guidline for Empirical Research,” Journal of Human Resources, 33(1), 88–126.
Cade, B.S. and B.R. Noon (2003): A gentle introduction to quantile regression for ecologists. Frontiers in Ecology and the Environment 1(8): 412-420. http://www.fort.usgs.gov/products/publications/21137/21137.pdf
Cizek, P. (2003): “Quantile Regression,” in XploRe Application Guide, ed. by W. Härdle, Z. Hlavka, and S. Klinke, chap. 1, pp. 19–48. Springer, Berlin.
Curry, J. 和 J. Gruber (1996): “拯救嬰兒:最近醫療補助計劃中孕婦資格變化的有效性和成本,”《政治經濟學雜誌》,104, 457–470。
Handl, A. (2000): “分位數,”可在以下網址獲得:http://www.wiwi.uni-bielefeld.de/~frohn/Lehre/Datenanalyse/Skript/daquantile.pdf
Härdle, W. (2003): 應用多元統計分析。施普林格出版社,海德堡。Hyndman, R. J. 和 Y. Fan (1996): “統計軟體包中的樣本分位數,”《美國統計學家》,50(4), 361 – 365。
Jeffreys, H. 和 B. S. Jeffreys (1988): 上下界。劍橋大學出版社。
Koenker, R. 和 G. W. Bassett (1978): “迴歸分位數,”《計量經濟學》,46, 33–50。
Koenker, R. 和 G. W. Bassett (1982): “基於迴歸分位數的異方差穩健檢驗,”《計量經濟學》,61, 43–61。
Koenker, R. 和 K. F. Hallock (2000): “分位數迴歸簡介,”可在以下網址獲得:http://www.econ.uiuc.edu/~roger/research/intro/intro.html
Koenker, R. 和 K. F. Hallock (2001): “分位數迴歸,”《經濟學視角》,15(4), 143–156。
Lee, S. (2005): “MECT1 分位數迴歸講義,”可在以下網址獲得:http://www.homepages.ucl.ac.uk/~uctplso/Teaching/MECT/lecture8.pdf
Lewit, E. M., L. S. Baker, H. Corman 和 P. Shiono (1995): “低出生體重的直接成本,”《兒童的未來》,5, 35–51。
mdbase (2005): “統計方法和互動式資料分析,”可在以下網址獲得:http://www.quantlet.org/mdbase/
Montenegro, C. E. (2001): “智利工資分配:性別重要嗎?分位數迴歸方法,”世界銀行發展研究小組工作論文系列 20。
Powell, J. (1986): “截斷迴歸分位數,”《計量經濟學》,32, 143– 155。
Scharf, F. S., F. Juanes 和 M. Sutherland (1998): “從散點圖邊緣推斷生態關係:迴歸技術比較,”《生態學》,79(2), 448–460。
XploRe (2006): “XploRe,”可在以下網址獲得:http://www.xplore-stat.de/index_js.html