統計分析:使用 R 入門/R/缺失資料
外觀
< 統計分析:使用 R 入門 | R
在收集資料時,某些資料點往往未知。這種情況出於多種原因發生。例如,在分析實驗資料時,我們可能記錄每個實驗的多個變數(例如,溫度、時間等),但可能忘記(或無法)記錄某個例項的溫度。或者,在收集美國各州的社會資料時,可能某些州沒有記錄某些感興趣的統計資料。另一個例子是泰坦尼克號沉沒的船上乘客資料,經過仔細研究,已經確定了船上 2207 人的票價等級,但無法確定 10 多名遇難者的年齡(參見 http://www.encyclopedia-titanica.org)。我們可能只忽略缺失資料,但在許多情況下,我們有一些變數的資訊,但其他變數沒有。例如,我們可能不想僅僅因為某個州缺少某個特定資料,就完全從分析中排除該州。因此,R 提供了一個特殊的值,NA,表示“不可用”。任何向量、數字、字元或邏輯都可以包含NA元素。這些元素可以透過“is.na”函式識別。
some.missing <- c(1,NA)
is.na(some.missing)some.missing <- c(1,NA)
is.na(some.missing) [1] FALSE TRUE
請注意,如果存在缺失資料,一些分析很難進行。可以使用“complete.cases”或“na.omit”來構建包含缺失值省略的資料集。