跳轉到內容

統計/不同型別的資料

來自華夏公益教科書,開放的書籍,開放的世界

統計


  1. 介紹
    1. 什麼是統計?
    2. 現代統計學中的主題
    3. 為什麼我應該學習統計? 0% developed
    4. 學習統計需要了解什麼?
  2. 不同型別的資料
    1. 原始資料和二手資料
    2. 定量資料和定性資料
  3. 資料收集方法
    1. 實驗
    2. 抽樣調查
    3. 觀察性研究
  4. 資料分析
    1. 資料清洗
    2. 移動平均
  5. 彙總統計
    1. 集中趨勢的度量
      1. 平均值、中位數和眾數
      2. 幾何平均數
      3. 調和平均數
      4. 算術平均數、幾何平均數和調和平均數之間的關係
      5. 幾何中位數
    2. 離散程度的度量
      1. 資料的範圍
      2. 方差和標準差
      3. 四分位數和四分位數間距
      4. 分位數
  6. 資料展示
    1. 條形圖
    2. 比較條形圖
    3. 直方圖
    4. 散點圖
    5. 箱線圖
    6. 餅圖
    7. 比較餅圖
    8. 象形圖
    9. 折線圖
    10. 頻率多邊形
  7. 機率
    1. 組合學
    2. 伯努利試驗
    3. 貝葉斯分析入門
  8. 分佈
    1. 離散分佈
      1. 均勻分佈
      2. 伯努利分佈
      3. 二項分佈
      4. 泊松分佈
      5. 幾何分佈
      6. 負二項分佈
      7. 超幾何分佈
    2. 連續分佈
      1. 均勻分佈
      2. 指數分佈
      3. 伽馬分佈
      4. 正態分佈
      5. 卡方分佈
      6. 學生t分佈
      7. F分佈
      8. 貝塔分佈
      9. 威布林分佈
  9. 檢驗統計假設
    1. 統計檢驗的目的
    2. 使用的形式
    3. 不同型別的檢驗
    4. 單個均值的z檢驗
    5. 兩個均值的z檢驗
    6. 單個均值的t檢驗
    7. 兩個均值的t檢驗
    8. 配對t檢驗用於比較均值
    9. 單因素方差分析F檢驗
    10. 單個比例的z檢驗
    11. 兩個比例的z檢驗
    12. 在Microsoft Excel中檢驗比例A是否大於比例B
    13. 斯皮爾曼等級相關係數
    14. 皮爾遜積矩相關係數
    15. 卡方檢驗
      1. 多個比例的卡方檢驗
      2. 列聯表的卡方檢驗
    16. 分佈的近似
  10. 點估計100% developed  as of 12:07, 28 March 2007 (UTC) (12:07, 28 March 2007 (UTC))
    1. 無偏性
    2. 優良性的度量
    3. UMVUE
    4. 完備性
    5. 充分性和最小充分性
    6. 輔助性
  11. 練習題
    1. 彙總統計問題
    2. 資料展示問題
    3. 分佈問題
    4. 資料檢驗問題
  12. 數值方法
    1. 基本線性代數和格拉姆-施密特正交化
    2. 無約束最佳化
    3. 分位數迴歸
    4. 統計軟體的數值比較
    5. Excel中的數值
    6. 統計/數值方法/隨機數生成
  13. 時間序列分析
  14. 多元資料分析
    1. 主成分分析
    2. 度量資料的因子分析
    3. 序數資料的因子分析
    4. 典型相關分析
    5. 判別分析
  15. 特定資料集的分析
    1. 結核病分析
  16. 附錄
    1. 作者
    2. 詞彙表
    3. 索引
    4. 連結

編輯此框


資料是將值分配給事件和物件的觀察結果。它們可以根據其編碼屬性以及其域和範圍的特徵進行分類。

識別資料型別

[編輯 | 編輯原始碼]

當給定的資料集本質上是數值型時,有必要仔細區分被量化的變數的實際性質。統計檢驗通常針對處理的資料型別。

名義(或分類)尺度上的資料

[編輯 | 編輯原始碼]

識別應用於非“度量”屬性的數字的真實性質通常是直接的和明顯的。日常使用中的例子包括道路、汽車、房屋、書籍和電話號碼。一個簡單的測試是詢問將數字重新分配到集合中是否會改變集合的性質。例如,如果汽車的牌照號碼被更改了,它在現實中仍然是同一輛車。

序數尺度上的資料

[編輯 | 編輯原始碼]

序數尺度是一個有等級的尺度。這些等級只有在其排序時才有意義,這就是它成為序數尺度的原因。[等級n]減去[等級n-1]不保證等於[等級n-1]減去[等級n-2],但是對於所有n,[等級n]將大於[等級n-1],就像[等級n-1]大於[等級n-2],其中[等級n],[等級n-1]和[等級n-2]存在。序數尺度的等級可以用帶有數字或名稱的系統以及約定的順序表示。

我們可以用一個常見的例子來說明這一點:李克特量表。考慮對一個問題有五種可能的回答,比如我們的總統是一位偉人,答案在這個量表上

回覆 強烈反對 反對 既不同意也不反對 同意 強烈同意
程式碼: 1 2 3 4 5

這裡答案是一個等級量表,反映在選擇的數字程式碼中。然而,在強烈同意同意之間的距離與強烈反對反對之間的距離相同這一點上,並沒有意義。

數值等級資料應該與測量資料區分開來。

測量資料

[編輯 | 編輯原始碼]

數值測量存在兩種形式,計數型和連續型,並且可以呈現三種類型的尺度:間隔尺度、比率尺度和迴圈尺度。

計數型離散變數通常是計數,並且只能取離散值。通常用自然數表示。植物學家在象限中發現的植物數量就是一個例子。(注意,如果象限的邊緣部分覆蓋了一株或多株植物,研究人員可以選擇將它們包括為一半,但資料仍然是計數型的,因為將總數加倍將消除任何分數)。

連續變數是指其測量精度僅受研究人員及其裝置限制的變數。植物學家用尺子測量的葉子的長度將不如用千分尺測量的精度高。(理論上,至少,葉子可以用帶有格尺的顯微鏡測量得更精確)。

間隔尺度在間隔尺度上測量的變數具有差異統一且有意義,但比率卻沒有意義。經常被引用的例子是攝氏溫標。5°和10°之間的差異相當於10°和15°之間的差異,但15°和5°之間的比率並不意味著前者是後者的三倍溫暖。

比率尺度比率尺度上的變數有一個有意義的零點。為了保持與上述例子的一致性,可以引用開爾文溫標。因為有一個絕對零度,所以可以說400°K是200°K的兩倍溫暖,儘管應該帶著開玩笑的態度說。一個更好的日常例子是說一個180公斤的相撲運動員比他60公斤的妻子重三倍。

迴圈尺度當人們測量年度日期、鐘錶時間以及其他一些形式的資料時,就會使用迴圈尺度。在這種情況下,變數的差異或比率可能都沒有意義,並且需要對這種資料使用特殊方法。

另請參見

[編輯 | 編輯原始碼]
華夏公益教科書