結核病統計/分析
結核病(TB)是一種常見且致命的傳染病,近年來正在復發。 WHO 估計,目前世界上超過三分之一的人口體內攜帶這種細菌。艾滋病毒感染者感染結核分枝桿菌的風險要高得多,因為他們的免疫系統受到艾滋病毒的損害。其他可能導致結核病流行的指標包括營養不良、衛生條件差以及缺乏醫療措施。
結核病長期以來被忽視,在世界許多地區已達到大流行的程度。導致這種蔓延的原因是什麼?如上所述,人們似乎對有利於這種疾病的大多數因素達成共識。然而,關於結核病流行與某些因素之間關係的新假設必須透過統計方法進行量化,這些方法使用統計軟體進行。
因此,根據孔子的名言,我們分析的目標是“道”,更準確地說,是評估和處理多元資料集的方法。然而,在分析過程中,我們將對變數之間的關係提出一些假設。有關快速瞭解情況,請檢視有關 多元分析 及其子部分的章節。
用於此分析的程式是 MDTech XploRe 軟體。分析的所有主要步驟都可以透過本研究中提供的程式程式碼輕鬆地重現(通常與影像空間中的圖形一起)。您只需要名為“datest.csv”的原始資料,該資料可在 http://www.quantlet.org/mdbase/ 上獲取,以及 XploRe 軟體的免費學術版本。
該分析基於名為“datest.csv”的資料集,該資料集可在 MD*Base 的主頁上獲取。
原始資料集中出現的缺失值(datorg.csv)已使用不同的方法替換為估計值,例如相鄰國家的平均值、線性迴歸和其他技術。由於這些資料是來自聯合國收集的,您可以在 聯合國統計司 的主頁上仔細檢視每個變數的定義。
該資料集包含 163 個觀測值和 16 個變數。第一個變數是一個文字變數,顯示每個國家的名稱,第二個變數將每個國家分配到一個大陸,因此是名義上的(從 1 到 6)。所有其他變數都在下表中描述
| 編號 | 標題 | 型別 | 備註 |
|---|---|---|---|
| 1. | 國家 | 文字 | 每個國家的名稱 |
| 2. | 洲 | 名義上的 | 1:亞洲,2:北美,3:南美,4:非洲,5:歐洲,6:澳大利亞和海洋 |
| 3. | 人口 | 公制 | 每個國家的總人口 |
| 4. | 避孕套使用率 | 公制 | 避孕套的使用率與女性使用的其他避孕方式有關,以百分比表示 |
| 5. | 艾滋病估計死亡人數 | 公制 | 艾滋病相關死亡總數(估計) |
| 6. | 瘧疾 | 公制 | 總患病率 |
| 7. | 結核病 | 公制 | 每 100,000 人的患病率 |
| 8. | 藥物 | 公制 | 獲得基本藥物的比例(根據世界衛生組織的清單),以百分比表示 |
| 9. | 教育 | 公制 | 按相關年齡組劃分的入學率,分為四組 < 50%、50 – 80%、80 – 95%、> 95% |
| 10. | 識字率 | 公制 | 以百分比表示 |
| 11. | 衛生 | 公制 | 獲得基本衛生設施的比例,以百分比表示 |
| 12. | 水 | 公制 | 獲得改良飲用水的比例,以百分比表示 |
| 13. | CO2 | 公制 | 以噸/人計算 |
| 14. | 網際網路 | 公制 | 網際網路接入總數 |
| 15. | 個人電腦使用者 | 公制 | 總數 |
| 16. | 電話 | 公制 | 總數 |
從表 1 可以看出,變數的測量單位不同。結核病的測量單位是每 100,000 人,而例如估計的艾滋病相關死亡人數是以總人口數表示的。因此,我們分析的第一步是重新排列資料集,使其更清晰地排序並以更合適的方式進行縮放。
下面的程式用於
- 在資料集中新增一個包含國家程式碼的列
- 將所有三種疾病的規模標準化為“每 100,000 人”
- 將網際網路接入總數、個人電腦數和電話線路數更改為相對數
- 重新排列變數的順序,使
- 前三列分別包含國家程式碼、大陸程式碼和人口
- 第四到第六列分別包含艾滋病估計死亡人數、瘧疾患病率和結核病患病率的標準化值
- 變數“避孕套使用”出現在第八列,之後是其他變數,按照原始順序排列
該程式將載入原始資料並建立兩個 CSV 檔案,這些檔案包含重新排列的資料集(包括國家名稱)和僅包含國家名稱的資料集。在執行程式之前,請確保您已從 MD*Base 的主頁下載了原始資料“datest.csv” 到已知的目錄。
library("xplore")
library("stats")
; ----- Reading data ----------------------------------------------------------------------------
choose = "Read from:" | "Save as:" | "Save country info as:"
defaults1 = "C:\Dokumente und Einstellungen\All Users\Desktop\datest.csv"
defaults2 = "C:\Dokumente und Einstellungen\All Users\Desktop\UN_data_ordered.csv"
defaults3 = "C:\Dokumente und Einstellungen\All Users\Desktop\country.csv"
defaults = defaults1 | defaults2 | defaults3
v = readvalue(choose, defaults)
; ----- Transformation --------------------------------------------------------------------------
x=readcsvm(v[1])
num=1:163
data=num~x.double
country=x.text
pop=data[,3]
x=(data[,5|6]/pop)*100000
y=data[,14|15|16]/pop
data=data[,1:3]~x~data[,7|4|8:13]~y
l=list(country, data)
; ----- Saving ----------------------------------------------------------------------------------
writecsv(l,v[2])
writecsv(country,v[3])
首先,我們想概述一些關於解釋變數的描述性資料,包括五數概括、偏度和峰度。偏度 和峰度 分別衡量偏度和偏離正態分佈的程度
;
對於以為對稱中心的分佈,偏度應該接近 0。對於類似正態分佈的分佈,峰度應該接近 3。
| 變數 | 最小值 | 25% 四分位數 | 中位數 | 平均值 | 75% 四分位數 | 最大值 | 偏度 | 峰度 |
|---|---|---|---|---|---|---|---|---|
| 避孕套使用率 | 0 | 4.25 | 6.8 | 10.13 | 12.95 | 77.6 | 2.88 | 18.17 |
| 藥物 | 50 | 80 | 80 | 81.47 | 95 | 100 | -0.78 | 2.42 |
| 教育 | 13.9 | 73.5 | 91.1 | 83.63 | 97.3 | 109.5 | -1.33 | 4.22 |
| 識字率 | 24.5 | 83.4 | 95.6 | 88.34 | 99.3 | 100 | -1.64 | 5.12 |
| 衛生 | 8 | 62 | 87 | 76.56 | 98 | 100 | -0.96 | 2.71 |
| 水 | 24 | 71.5 | 87 | 81.06 | 98 | 100 | -0.99 | 2.97 |
| 二氧化碳 | 0.02 | 0.41 | 1.97 | 4.67 | 6.26 | 90.74 | 6.52 | 61.37 |
| 網際網路 | 0 | 0 | 0.03 | 0.1 | 0.1 | 0.58 | 1.73 | 4.7 |
| 個人電腦使用者 | 0 | 0 | 0.03 | 0.1 | 0.11 | 0.60 | 2.02 | 6.23 |
| 電話 | 0 | 0.03 | 0.22 | 0.4 | 0.55 | 1.61 | 1.16 | 3.01 |
箱線圖、直方圖和分位數-分位數圖
[edit | edit source]現在,我們將使用傳統的單變數分析機制來檢視我們後面模型中所有感興趣的變數。為了獲得綜合概述,我們首先關注包含多個變數資訊的多種圖形顯示。
讓我們看一下 圖形 1和 圖形 2,我們在其中計算了我們資料中疾病的箱線圖和直方圖,即結核病、瘧疾和艾滋病。
如上所述,所有三個變數都被轉換為每 100,000 人的比例。為了在 圖形 1中更好地視覺化,我們標準化了 x 軸,否則結核病和瘧疾的箱線圖將過於壓縮。對於所有三個變數,我們觀察到向右傾斜,儘管異常值分佈的特徵差異很大。因此,對於結核病,我們只識別了一個異常值(柬埔寨),而對於艾滋病死亡人數,總共顯示了 38 個異常值,其中 24 個是中等程度的(圓圈)和 14 個是更明顯的(十字)。我們決定識別這些異常值,事實證明,大約 90% 的異常值是非洲國家,因此約 72% 的非洲國家是異常值。是否應該排除整個大陸?絕對不應該,但這為資料中可能存在的子組提供了一個線索。
圖形 3 到 5 為我們提供了對可能解釋變數對我們因變數結核病的單變數分析結果。
在 圖形 3中,我們看到了上述變數的箱線圖。請注意,我們在不同的比例尺上顯示了箱線圖。上面的五個箱線圖是以百分比衡量的,而我們決定標準化下面箱線圖的 y 軸。關於藥物獲取箱線圖需要做的一點重要說明:雖然看起來只有一個異常值,但事實證明,這個“點”實際上是落在 0% 到 50% 類別的 37 個國家。
資料偏度也可以預測,並在 圖形 4中得到證實,我們在其中顯示了平均偏移曲線和直方圖。再次值得注意的是,除了藥物獲取之外,上面的變數都向左傾斜,而下面的變數向右傾斜。這意味著大多數國家在上面部分顯示的變數中具有相對較高的值,而在下面部分顯示的變數中具有相對較低的值。 圖形 5顯示了分位數-分位數圖,用於將每個變數與正態分佈進行比較。顯然,我們與 45° 線有明顯的偏差,這表明變數不是正態分佈的。
總的來說,單變數分析的主要發現是,我們具有非常偏斜的分佈,這些分佈在不同的變數之間部分重疊。這可能表明單個維度之間存在很強的相關性。無論如何,仍然存在這些關係是線性還是非線性的問題。此外,我們在資料集的不同維度中看到了許多異常值。因此,問題就變成了,一個維度中的異常值是否也是我們資料其他維度中的異常值。這個問題將在下一節中討論。
使用簡單的多元方法進行異常值處理
[edit | edit source]正如我們在單變數分析中看到的,我們面臨著一個非常異質的資料集,它具有極度偏斜的分佈,因此許多觀察結果被顯示為異常值。這甚至達到了將幾乎整個大陸(即非洲的艾滋病相關死亡率)排除在分析之外的地步。這可能促使對非洲進行單獨的分析。
| 人口 | 艾滋病 | 瘧疾 | 結核病 | 避孕套使用率 | 藥物 | 教育 |
|---|---|---|---|---|---|---|
| 20 | 24 | 37 | 1 | 9 | 31 | 7 |
| 識字率 | 衛生 | 水 | CO2 | 網際網路 | 個人電腦 | 電話 |
| 9 | 0 | 3 | 8 | 26 | 18 | 10 |
但是在這裡,我們的目標是找到更好的方法來處理多維大型資料集。因此,我們試圖找到一種可能性來評估所有國家在某些維度上的極值。此外,我們希望獲得一個表格,其中包含每個維度中“箱線圖異常值”的數量。因此,我們計算了一個 163 x 14 矩陣,該矩陣包含邏輯值 0 或 1,其中 1 表示觀察結果是異常值。使用此矩陣進行簡單的計算,會導致在表 3中顯示的每個維度中的異常值數量。
圖表 6 顯示了一個柱狀圖,其中國家根據單變數極值或“箱線圖異常值”的數量進行分類。該圖表表明,只有少數國家在四個維度上的箱線圖意義上是異常值,並且沒有國家擁有超過四個極值。該 “異常值程式” 生成 圖表 6 此外,還提供了選擇在多少個維度上一個觀察值必須是單變數異常值才能被視為“多維異常值”的選項。然後,這些“多維異常值”將以藍色顯示,並與其他觀察值一起顯示在星形圖中(或者,也可以選擇所謂的 Chernoff-Flurry 面孔)。這有助於決定這些觀察值是否真的與資料集中其他觀察值有很大不同。這個過程可以重複多次,直到找到一個令人滿意的異常值集,這些異常值應該從進一步的分析中排除(透過 “異常值程式” 提供儲存選項)。
然而,在進一步的分析中,我們決定不排除任何觀察值,而是使用整個資料集進行分析,因為即使每個觀察值有四個異常高的或低的數值,與總共 13 個相關維度相比,仍然相對較少。此外,異常值星形圖 顯示資料中似乎存在不同組的國家,它們具有由各自星形形狀反映的相似特徵。如果我們選擇將所有具有一個或多個“箱線圖異常值”的觀察值著色,則剩餘的(綠色)觀察值似乎具有非常相似的特徵。但剩餘國家的數量非常有限,似乎並不代表世界上的國家群體。
儘管如此,我們仍然可以在進一步的分析過程中檢查排除某些“多維異常值”的影響。
雙變數分析
[edit | edit source]現在,我們想要更好地瞭解我們的目標變數(即結核病患病率)與其他變數之間的關係,根據我們的目標,這些變數被認為是解釋變數。在資料集中視覺化所有變數之間關係的一種可能性是散點圖。在這種圖表中,所有變數將彼此繪製。由於我們有 13 個感興趣的變數,這將為我們提供 13 x 13 的二維圖顯示,這幾乎無法在標準計算機顯示器上正常顯示。此外,對角線上還有空白空間,上三角形和下三角形中的資訊重複。因此,這種圖表只能在最多八個變數的情況下以適當的方式使用。
相反,我們只是將所有解釋變數與結核病繪製在一起,並將它們顯示在一個視窗中,該視窗顯示在 圖表 7 中。該圖表提供了從資料中得出基本關係假設所需的資訊。
首先,可以看到大多數觀察值似乎分佈在一個非常小的區域內,在大多數情況下是圖表的角落,而只有相對較小的一部分散佈在圖表的整個範圍內。為了更好地視覺化這一點,我們向圖表添加了一個維度,並計算了圖表的二維密度估計。這可以在 圖表 8 中看到,它舉例說明了“結核病”和“衛生”的二維密度估計。這進一步加強了我們在分析的先前步驟中提到的想法。也就是說,可以根據可用的資訊/變數將國家分類為不同的組。此外,解釋變數與結核病之間似乎存在不同的關係。這些關係將在我們分析的後續步驟中考慮。由於它們可能因子組而異,我們繼續嘗試在國家內部找到同質組,並轉向在 多元分析部分 中發展關於關係的假設。
尋找群體
[edit | edit source]由於我們已經看到了許多關於不同群體存在的指標,我們現在將嘗試找到和解釋資料中可以找到的群體。在我們使用現有的統計方法之前,我們想提及對全球各國的普遍區分。這是根據國家“總體發展水平”將國家劃分為發達國家(通常與西歐國家、北美和日本同義)、新興國家(如東南亞虎國和大多數拉丁美洲國家)和發展中國家(以前通常被稱為第三世界(儘管只有一個),因為這些國家在收入和生活水平方面是最貧窮的國家)。儘管對這三組國家的區分並不是真正基於像我們這樣的資料,而是實際上包含了更多經濟資料以及來自社會科學的資料,但人們仍然期望找到類似於上面描述的組。透過聚類分析的統計方法,我們將嘗試找到儘可能明顯不同的組。
聚類分析
[edit | edit source]聚類分析的目的是從一個異質的大型資料集中構建具有同質屬性的組。使用的**方法**通常分為兩步:選擇鄰近度量,它檢查每一對觀察值(物件)的值是否相似。然後定義一個相似度(鄰近度)度量來衡量物件的接近程度。它們越接近,它們的同質性就越高。以及選擇一個群體構建演算法,它根據鄰近度量將物件分配到群體中,以便群體之間的差異變大,而同一群體內的觀察值儘可能接近。
在我們的分析中,我們選擇將歐幾里得距離作為我們的鄰近度量,即兩點之間的平方距離。但在這樣做之前,我們透過方差將資料標準化,因為使用了不同的變數縮放方法。
我們的演算法是所謂的 Ward 聚類演算法,它將不會使給定異質性度量增加過多的組合並在一起。Ward 程式的目標是將組統一起來,使這些組內部的差異不會過分增加:由此產生的組儘可能同質。我們在 圖表 9 中的樹狀圖中看到了聚類序列的圖形表示。它顯示了觀察值、聚類序列以及聚類之間的距離。縱軸顯示點的索引,而橫軸給出聚類之間的距離。
我們可以清楚地區分三個具有相對較高同質性的組(聚類)。右側包含 108 個觀察值的最大聚類代表發展中國家,中間包含 37 個觀察值的組代表新興國家,而最小的組包含 18 個觀察值,與發達國家相同。
此外,我們還計算了三個聚類均值的 PCP(平行座標圖),以視覺化這些組之間的差異。綠線代表發達國家,紅線代表新興國家,藍線代表發展中國家。正如我們預期的那樣,可以觀察到兩個明顯相反的組。紅線(新興國家)接近藍線(發達國家),這似乎是一個合理的結果。
要獲得包含在不同聚類中的國家的列表,請執行附加到 圖表 9 中的程式。
多元分析
[edit | edit source]正如 雙變數分析 部分提到的,我們資料集中的結核病與解釋變數之間可能存在不同的關係。還應該提到,我們既沒有非常專業的醫學知識,也沒有從自身經驗中瞭解結核病患病率高的國家的具體情況。因此,可能很難理解不同變數之間的關係。儘管如此,我們將對幾乎每個解釋變數都做出一些假設,並看看它們是否成立。從 雙變數分析 部分的圖表 5 中,我們發現 圖表 11 中顯示的迴歸線(紅色,實線)非常接近點雲。這些關係可以用以下可能天真的方式解釋。
假設發展
[edit | edit source]- 結核病患病率與艾滋病相關死亡人數
- 肺結核患病率與瘧疾患病率
- 瘧疾和肺結核之間似乎沒有線性關係。但如果我們排除一些瘧疾病例極高的國家,我們可能會學到更多。這可以透過“paf”命令輕鬆完成。儘管如此,瘧疾患病率對肺結核患病率沒有顯著影響,正如您從下表中的 p 值中看到的那樣。
Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 22178.097 1 22178.097 2.228 0.1375" [ 5,] "Residuals 1602701.069 161 9954.665" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.11683" [ 9,] "R^2 = 0.01365" [10,] "Adjusted R^2 = 0.00752" [11,] "Standard Error = 99.77307" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= 95.8129 8.1290 0.0000 11.787 0.0000" [17,] "b[ 1,]= 0.0296 0.0198 0.1168 1.493 0.1375"
- 肺結核患病率與女性使用安全套作為避孕措施
- 正如我們在 單變數分析 中提到的,這個變數難以處理,因為安全套的相對使用率似乎不能說明性交過程中使用安全套的頻率。如果其他避孕措施不經常使用,安全套的相對使用率可能會很高。因此,我們沒有對這兩個變數之間的關係做出假設。然而,事實證明,在關於肺結核患病率的簡單線性迴歸模型中,安全套使用率的係數與零顯著不同。
注意:如果我們在進一步的分析中提到顯著性,我們始終指的是至少 5% 的 alpha 值!出於篇幅原因,我們避免整合所有迴歸輸出表。
- 肺結核患病率與獲得基本藥物
- 這裡的困難在於我們有分類資料。儘管如此,我們假設存線上性關係,這由顯著的迴歸係數證實。負相關是顯而易見的。
- 肺結核患病率與教育比例和識字率
- 儘管我們可能存在異方差性,但我們假設整個資料集存線上性關係。這也由顯著的迴歸係數證實。
- 肺結核患病率與獲得衛生設施和清潔飲用水
- 同樣需要考慮異方差性。關於線性關係的假設由顯著的 p 值證實。
- 肺結核患病率與二氧化碳排放量
- 二氧化碳排放量與肺結核患病率之間存在關係的合理解釋將是一個相當困難的構建。但如果我們將二氧化碳排放量視為一般經濟發展和生活水平的潛在因素,這種關係似乎更有意義。在 圖形 11(第三行,第一個元素)中假設並顯示的函式形式由負邊際影響的假設所證明,即對於較低的二氧化碳排放量/生活水平,二氧化碳排放量/生活水平的微小增長對肺結核患病率的影響更強,並且從一定水平開始減弱。
- 肺結核患病率與網際網路訪問、個人電腦和電話普及率
- 這三個變數可以解釋為獲取資訊。我們假設,在總體資訊水平較低的情況下,額外的資訊特別有價值,例如,您可以透過人體體液感染肺結核的資訊,這是一個非常基本的資訊,可以透過媒體輕鬆傳播。因此,如果總體資訊水平較低,資訊肯定會對肺結核患病率產生更大的影響。如果人們已經獲得了充足的新聞,額外的資訊可能會導致我們所說的資訊氾濫,即它們不再被意識到。
- 用於描述這四個變數之間關係的函式形式,出於簡單性的考慮,對所有變數都相同。證明基本上是假設所有變數的負邊際影響,如上所述。這裡使用的函式形式是
- 最後四個(轉換後的)變數的簡單線性迴歸模型的 p 值也顯著。並且,正如您在下方的輸出表中看到的,調整後的 R^2 一直相對較高。這就是我們將堅持我們假設的原因。
Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 781723.888 1781723.888 149.270 0.0000" [ 5,] "Residuals 843155.278 161 5236.989" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.69361" [ 9,] "R^2 = 0.48110" [10,] "Adjusted R^2 = 0.47787" [11,] "Standard Error = 72.36705" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= -21.0144 11.3520 0.0000 -1.851 0.0660" [17,] "b[ 1,]= 118.3640 9.6880 0.6936 12.218 0.0000" Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 605005.143 1605005.143 95.508 0.0000" [ 5,] "Residuals 1019874.023 161 6334.621" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.61020" [ 9,] "R^2 = 0.37234" [10,] "Adjusted R^2 = 0.36844" [11,] "Standard Error = 79.59033" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= 6.5870 11.3392 0.0000 0.581 0.5621" [17,] "b[ 1,]= 25.3361 2.5925 0.6102 9.773 0.0000" Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 663303.291 1663303.291 111.059 0.0000" [ 5,] "Residuals 961575.874 161 5972.521" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.63892" [ 9,] "R^2 = 0.40822" [10,] "Adjusted R^2 = 0.40454" [11,] "Standard Error = 77.28209" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= -18.9252 12.7351 0.0000 -1.486 0.1392" [17,] "b[ 1,]= 35.7036 3.3879 0.6389 10.538 0.0000" Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 805435.082 1805435.082 158.248 0.0000" [ 5,] "Residuals 819444.083 161 5089.715" [ 6,] "Total Variation 1624879.166 162 10030.118" [ 7,] "" [ 8,] "Multiple R = 0.70405" [ 9,] "R^2 = 0.49569" [10,] "Adjusted R^2 = 0.49256" [11,] "Standard Error = 71.34224" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= -25.7826 11.3957 0.0000 -2.262 0.0250" [17,] "b[ 1,]= 61.4014 4.8810 0.7041 12.580 0.0000"
多元線性迴歸模型
[edit | edit source]現在,如果我們嘗試將所有解釋變數放入一個模型中會發生什麼?它們的影響在其他變數的影響方面仍然顯著嗎?我們將嘗試在 XploRe 中實現的不同選擇過程,以計算擬合度最佳的模型,即調整後的 最好的模型。
向前選擇模型
[edit | edit source]向前選擇選項從一個“良好”變數開始,計算簡單線性迴歸,然後逐步決定每個變數的包含是否可以改善模型的擬合度。
此過程產生以下模型作為結果
Contents of out [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 910056.048 2455028.024 102.567 0.0000" [ 5,] "Residuals 700949.728 158 4436.391" [ 6,] "Total Variation 1611005.776 160 10068.786" [ 7,] "" [ 8,] "Multiple R = 0.75160" [ 9,] "R^2 = 0.56490" [10,] "Adjusted R^2 = 0.55939" [11,] "Standard Error = 66.60624" [12,] "" [13,] "" [14,] "PARAMETERS Beta SE StandB t-test P-value" [15,] "________________________________________________________________________" [16,] "b[ 0,]= -29.2719 10.7465 0.0000 -2.724 0.0072" [17,] "b[ 1,]= 12.7427 2.5019 0.3098 5.093 0.0000" [18,] "b[ 2,]= 47.5180 5.2959 0.5458 8.973 0.0000"
向後剔除模型和逐步選擇模型
[edit | edit source]向後剔除過程從完整的多元迴歸模型開始,逐步排除對模型擬合度貢獻不大的變數。在本例中,逐步選擇模型產生的結果與向後剔除模型相同。兩者都導致以下模型
Contents of ANOVA [ 1,] "" [ 2,] "A N O V A SS df MSS F-test P-value" [ 3,] "_________________________________________________________________________" [ 4,] "Regression 963289.397 4240822.349 61.982 0.0000" [ 5,] "Residuals 606118.006 2e+02 3885.372" [ 6,] "Total Variation 1611006 160 10068.786" [ 7,] "" [ 8,] "Multiple R = 0.77327" [ 9,] "R^2 = 0.59794" [10,] "Adjusted R^2 = 0.61412" [11,] "Standard Error = 62.33275" Contents of Summary [ 1,] "Variables in the Equation for Y:" [ 2,] " " [ 3,] "" [ 4,] "PARAMETERS Beta SE StandB t-test P-value Variable" [ 5,] " __________________________________________________________________________________" [ 6,] "b[ 0,]= 155.7053 41.5609 0.0000 3.7464 0.0003 Constant " [ 7,] "b[ 1,]= 10.5762 2.3854 0.2571 4.4337 0.0000 X 1" [ 8,] "b[ 2,]= -0.8998 0.3050 -0.2283 -2.9500 0.0037 X 7" [ 9,] "b[ 3,]= -0.8339 0.4242 -0.1621 -1.9659 0.0511 X 8" [10,] "b[ 4,]= 26.3803 6.6151 0.3030 3.9879 0.0001 X 12"
這個結果並不令人滿意,因為模型的解釋能力並沒有比大多數簡單的迴歸模型高多少。造成擬合不足的原因是什麼?這個問題將在我們的最終結論中得到解決。
正如我們在分析過程中所看到的,有很多方法可以加深你對未知資料集的理解。雖然我們並沒有找到一個完全解釋不同國家結核病患病率差異的令人滿意的模型,但我們對資料集中的結構有了更好的瞭解。我們已經看到並試圖解釋結核病患病率與所有其他變數之間的單變數關係。此外,我們還在資料中找到了相當合理的組,可以透過提供的程式分別進行評估。
然而,像多元迴歸這樣的多元分析需要更復雜的方法。從整個資料集的相關矩陣可以很容易地看出,許多不同的變數彼此相關。這在某些情況下是顯而易見的,例如在電話線路、網際網路接入可能性和個人電腦方面。這些多重共線性問題使得多元迴歸相當困難,因為可以得到許多具有相似擬合但解釋變數不同的模型。因此,我們應該嘗試找到一種方法來減少資料集的維度,例如使用因子分析。
最後,我們應該再次提到,我們的假設既不基於複雜的醫學專業知識,也不能說明我們資料的隨時間發展,這對於推匯出更好的假設可能非常有用,而這些假設可以用所提出的方法進行檢驗。
無論如何,我們為讀者提供了許多機會,讓他們使用提供的程式繼續分析。例如,可以利用不同的聚類(透過程式 9儲存)來重複異常值處理(透過程式 6)或雙變數分析(透過程式 11)等。
[Härdle, Klinke, Müller 2000] Härdle, W.; Klinke, S.; Müller, M.: Xplore 學習指南。施普林格出版社,柏林-海德堡,2000 年
[Härdle, Simar 2003] Härdle, W.; Simar, L.: 應用多元統計分析。施普林格出版社,柏林-海德堡,2003 年
[Hädle, Hlavka, Klinke 2000] Hädle, W.; Hlavka, Z.; Klinke, S.: XploRe 應用指南。施普林格出版社,柏林-海德堡,2000 年
聯合國統計司,網址:http://unstats.un.org/unsd/cdb/cdb_list_dicts.asp,訪問時間:2006 年 12 月 9 日
XploRe 幫助,網址:http://www.xplore-stat.de/help/_Xpl_Start.html