跳轉到內容

社會研究方法/統計分析

來自華夏公益教科書,開放的書籍,開放的世界

簡介

• 統計學是數學的應用分支,特別適合各種研究分析。

描述性統計

• 描述性統計用於總結研究中的資料。一些描述性統計總結了單個變數上屬性的分佈;其他總結了變數之間的關聯。

• 總結變數之間關係的描述性統計稱為關聯度量。

• 許多關聯度量基於誤差比例減少 (PRE) 模型。該模型基於對以下內容的比較:1. 在嘗試猜測研究中每個案例中給定變數的屬性時,我們會犯多少錯誤——如果我們除了該變數上屬性的分佈外什麼都不知道——以及 2. 如果我們知道整體聯合分佈,並且每次要求我們猜測另一個變數的屬性時,都會告訴我們每個案例中一個變數的屬性,那麼我們會犯多少錯誤。這些度量包括 _lambda_,它適用於分析兩個名義變數;_gamma_,它適用於分析兩個有序變數;以及 _皮爾遜積矩相關_,它適用於分析兩個區間或比率變數。

• _迴歸分析_ 以方程式的形式表示變數之間的關係,這些方程式可用於根據一個或多個自變數的值預測因變數的值。

• 迴歸方程是在迴歸線的基礎上計算的:幾何線代表了散點圖中點實際位置的最小偏差。

• 迴歸分析的型別包括線性迴歸分析、多元迴歸分析、偏回歸分析和曲線迴歸分析。

推論統計

• 推論統計用於估計從樣本分析中得出的發現對所選樣本的更大總體的一般性。一些推論統計估計總體的單變數特徵;另一些——統計顯著性檢驗——估計總體中變數之間的關係。

• 關於總體某些特徵的推論必須表明置信區間和置信水平。置信水平和區間的計算基於機率論,並假設研究中採用了傳統的機率抽樣技術。

• 關於樣本中發現的變數之間關聯對總體的普遍性推論涉及統計顯著性檢驗,這些檢驗估計在總體中變數之間不存在關聯的情況下,觀察到的關聯程度可能僅僅是由正常抽樣誤差導致的可能性。統計顯著性檢驗也基於機率論,並假設研究中採用了傳統的機率抽樣技術。

• 觀察到的關聯的顯著性水平以關聯僅僅是由抽樣誤差產生的機率形式報告。說關聯在 0.05 水平上是顯著的,就是說關聯程度與觀察到的關聯一樣大,不能預期僅僅由於抽樣誤差而出現超過 100 次中的 5 次。

• 社會研究人員傾向於在與統計顯著性檢驗相關的特定顯著性水平集使用:0.05、0.01 和 0.001。但這僅僅是一種慣例。

• 表格資料中經常使用的一種統計顯著性檢驗是卡方檢驗。

• _t 檢驗_ 是一個經常用於比較均值的統計顯著性檢驗。

• 統計顯著性不應與實質性顯著性混淆,後者意味著觀察到的關聯是強烈的、重要的、有意義的,或者值得寫信告訴你的母親。

• 嚴格來說,統計顯著性檢驗對資料和方法做出了假設,這些假設幾乎從未完全滿足於實際的社會研究。儘管如此,這些檢驗仍然可以為資料的分析和解釋提供有用的功能。

其他多元技術

• _路徑分析_ 是一種圖形化呈現多個變數之間因果關係網路的方法。它說明了自變數導致因變數的主要“路徑”。路徑係數代表變數之間的偏關係。

• _時間序列分析_ 是對變數(如犯罪率)隨時間變化的分析。

• _因子分析_ 只能透過計算機實現,是一種分析方法,用於發現由一組實際變數所代表的總體維度。這些總體維度或因子是計算出的假設維度,它們不能完全由任何正在研究的經驗變數代表,但與經驗變數組高度相關。因子負荷表示給定經驗變數與給定因子之間的關聯程度。

• _方差分析_ (ANOVA) 基於比較組之間和組內的變化,並確定組間差異是否可以合理地發生在簡單隨機抽樣中,或者它們是否可能代表所涉及變數之間的真實關係。

• _判別分析_ 試圖解釋某個因變數的變化。它得到一個方程,根據該假設維度對人們進行評分,並允許我們預測他們在因變數上的值。

• _對數線性模型_ 提供了一種方法來分析多個名義變數之間複雜的相互關係,每個名義變數都具有兩個以上的屬性。

• _地理資訊系統_ (GIS) 繪製描述地理單元的定量資料以進行圖形顯示。

關鍵詞 對於理解統計分析很重要。

• 方差分析 (ANOVA):分析方法,其中研究中的案例被組合成代表自變數的組,並且組之間差異的程度是根據某個因變數進行分析的。然後,比較組間差異的程度與隨機分佈的標準。

• 曲線迴歸分析:一種迴歸分析形式,允許變數之間的關係用曲線幾何線而不是直線來表示。

• 描述性統計:描述樣本特徵或樣本中變數之間關係的統計計算。描述性統計僅僅總結了一組樣本觀察結果,而推論統計則超越了對特定觀察結果的描述,對樣本觀察結果所來自的更大總體進行推斷。

• 判別分析:一種類似於多元迴歸的分析方法,除了因變數可以是名義變數。

• 因子分析:一種複雜代數方法,用於確定一組具體觀察結果中存在的總體維度或因子。

• 地理資訊系統 (GIS):分析技術,其中研究人員繪製描述地理單元的定量資料以進行圖形顯示。

• 推論統計:與從基於樣本觀察結果的發現推斷到更大總體相關的統計計算的集合。

• 顯著性水平:在統計顯著性檢驗的背景下,觀察到的經驗關係可能是由於抽樣誤差造成的可能性。如果關係僅僅是抽樣誤差函式的可能性不超過 100 次中的 5 次,則關係在 0.05 水平上是顯著的。

• 線性迴歸分析:一種統計分析形式,它尋找最能描述兩個比率變數之間關係的直線方程。

• 對數線性分析:資料分析技術,基於指定描述變數之間相互關係的模型,然後比較預期和觀察到的表格單元頻率。

• 多元迴歸分析:一種統計分析形式,它尋找表示兩個或多個自變數對單個因變數的影響的方程。

• 非抽樣誤差:資料質量的那些缺陷,是由於除抽樣誤差以外的因素造成的。例如,受訪者對問題的誤解、訪談員和編碼員的錯誤記錄以及穿孔錯誤。

• 偏回歸分析:一種迴歸分析形式,其中一個或多個變數的影響被保持不變,類似於闡述模型的邏輯。

• 路徑分析:一種多元分析形式,其中變數之間的因果關係以圖形格式呈現。

• 誤差比例減少 (PRE):一種邏輯模型,用於透過詢問知道一個變數的值將減少我們猜測另一個變數的值的錯誤程度來評估關係的強度。例如,如果我們知道人們受教育程度,我們可以提高我們估計他們收入的能力,從而表明這兩個變數之間存在關係。

• 迴歸分析:一種資料分析方法,其中變數之間的關係以方程的形式表示,稱為迴歸方程。

• 統計顯著性:一個一般術語,指的是觀察到的樣本關係可能是由於抽樣誤差造成的可能性。

• 統計顯著性檢驗:一類統計計算,表明觀察到的樣本變數之間關係可能是由於抽樣誤差造成的可能性。

• 時間序列分析:對變數(如犯罪率)隨時間變化的分析。

華夏公益教科書