統計/不同型別的資料
資料是將值分配給事件和物件的觀察結果。它們可以根據其編碼屬性以及其域和範圍的特徵進行分類。
當給定的資料集本質上是數值型時,有必要仔細區分被量化的變數的實際性質。統計檢驗通常針對處理的資料型別。
識別應用於非“度量”屬性的數字的真實性質通常是直接的和明顯的。日常使用中的例子包括道路、汽車、房屋、書籍和電話號碼。一個簡單的測試是詢問將數字重新分配到集合中是否會改變集合的性質。例如,如果汽車的牌照號碼被更改了,它在現實中仍然是同一輛車。
序數尺度是一個有等級的尺度。這些等級只有在其排序時才有意義,這就是它成為序數尺度的原因。[等級n]減去[等級n-1]不保證等於[等級n-1]減去[等級n-2],但是對於所有n,[等級n]將大於[等級n-1],就像[等級n-1]大於[等級n-2],其中[等級n],[等級n-1]和[等級n-2]存在。序數尺度的等級可以用帶有數字或名稱的系統以及約定的順序表示。
我們可以用一個常見的例子來說明這一點:李克特量表。考慮對一個問題有五種可能的回答,比如我們的總統是一位偉人,答案在這個量表上
| 回覆 | 強烈反對 | 反對 | 既不同意也不反對 | 同意 | 強烈同意 |
|---|---|---|---|---|---|
| 程式碼: | 1 | 2 | 3 | 4 | 5 |
這裡答案是一個等級量表,反映在選擇的數字程式碼中。然而,在強烈同意和同意之間的距離與強烈反對和反對之間的距離相同這一點上,並沒有意義。
數值等級資料應該與測量資料區分開來。
數值測量存在兩種形式,計數型和連續型,並且可以呈現三種類型的尺度:間隔尺度、比率尺度和迴圈尺度。
計數型或離散變數通常是計數,並且只能取離散值。通常用自然數表示。植物學家在象限中發現的植物數量就是一個例子。(注意,如果象限的邊緣部分覆蓋了一株或多株植物,研究人員可以選擇將它們包括為一半,但資料仍然是計數型的,因為將總數加倍將消除任何分數)。
連續變數是指其測量精度僅受研究人員及其裝置限制的變數。植物學家用尺子測量的葉子的長度將不如用千分尺測量的精度高。(理論上,至少,葉子可以用帶有格尺的顯微鏡測量得更精確)。
間隔尺度在間隔尺度上測量的變數具有差異統一且有意義,但比率卻沒有意義。經常被引用的例子是攝氏溫標。5°和10°之間的差異相當於10°和15°之間的差異,但15°和5°之間的比率並不意味著前者是後者的三倍溫暖。
比率尺度比率尺度上的變數有一個有意義的零點。為了保持與上述例子的一致性,可以引用開爾文溫標。因為有一個絕對零度,所以可以說400°K是200°K的兩倍溫暖,儘管應該帶著開玩笑的態度說。一個更好的日常例子是說一個180公斤的相撲運動員比他60公斤的妻子重三倍。
迴圈尺度當人們測量年度日期、鐘錶時間以及其他一些形式的資料時,就會使用迴圈尺度。在這種情況下,變數的差異或比率可能都沒有意義,並且需要對這種資料使用特殊方法。