跳轉到內容

計量經濟學理論/虛擬變數

來自華夏公益教科書,開放的書籍,為開放的世界

健康保險公司通常會對不同型別的人收取不同的費用。他們根據自己的資料瞭解到,年輕人通常不太需要去看醫生,因此他們收取的保險費更低。他們的資料表明,年齡和醫療費用呈正相關,事實上,一個是另一個的“原因”。他們根據其他人口統計資料來組織其保險費率。其中一個是客戶是否吸菸,有些甚至使用性別。但他們是如何得出吸菸者更貴的結論,或者說覆蓋男性的成本與覆蓋女性的不同?這些不是定量的資料,所以不能迴歸,對吧?不,我們可以讓它們看起來像是定量的,而不是定性的。

虛擬變數

[編輯 | 編輯原始碼]

虛擬變數指示變數是將這些定性資料點操作為定量資料點。在將醫療費用與吸菸習慣相關聯的情況下,我們可以說吸菸者為1,非吸菸者為0。我們的因變數是醫療費用。

我們的模型將如下所示: 其中 D 是我們的虛擬變數(吸菸),Y 是我們的因變數(醫療費用)。假設非吸菸者的醫療費用為 50 美元,吸菸者的醫療費用為 60 美元,那麼我們的模型將是 。當我們檢視的是非吸菸者時,D = 0,當我們檢視的是吸菸者時,D = 1。

我們也可以用多個資訊(變數)進行迴歸。我們還可以將我們的正常資料與多個虛擬變數混合在一起。 (性別 = 1 為男性,性別 = 0 為女性)

我們根據資料得出的估計模型將是

一位 29 歲的男性非吸菸者的公式將是

我們的虛擬變數可以不僅僅是二元的。假設醫療保健公司發現幸福可以導致更高的健康水平,他們想將其用於價格歧視計劃。他們可以問“你有多幸福?非常幸福,有點幸福,悲傷”。但是,他們需要使用兩個虛擬變數來進行此操作。如果“非常幸福”,則 D1 為 1 且 D2 為 0,如果“有點幸福”,則 D1 為 0 且 D2 為 1,如果“悲傷”,則 D1 為 0 且 D2 為 0。

為了將此新增到我們的模型中,我們將有

斜率與截距變化

[編輯 | 編輯原始碼]

虛擬變數可以透過兩種方式影響模型。虛擬變數可以向上或向下移動截距,或使斜率變緩或變陡。上面描述的都是截距移動。對於非吸菸者,直線保持中立,對於吸菸者,直線上移。對於斜率移動,虛擬變數與標準變數處於同一項中,如 ,其中如果 D = 1,,如果 D = 0

注意:在本例中,虛擬變數和標準變數的組合是互動項。它通常被描述為一個變數,如

華夏公益教科書