統計分析：使用 R 入門 / R / 因素

在 R 中，分類變數儲存為一種稱為因素的特殊向量物件。這與填充了一組名稱的字元向量不同（不要將兩者混淆）。特別地，R 必須被告知每個元素只能是若干已知級別之一（例如，男性或女性）。如果嘗試將具有不同未知級別的數據點放入因素中，R 會報錯。當將因素列印到螢幕上時，R 也會列出因素可以採用的所有可能的級別（這可能包括不存在的級別）。

factor() 函式建立因素並定義可用級別。預設情況下，級別取自向量中的級別***。實際上，您通常不需要使用factor()，因為在從檔案讀取資料時，R 預設情況下假設文字應轉換為因素（參見統計分析：使用 R 入門 / R / R / 資料框）。您可能需要使用as.factor()。在內部，R 將級別儲存為從 1 開始的數字，但並不總是清楚哪個數字對應於哪個級別，通常不需要知道。

序數變數，即級別具有自然順序的因素，在 R 中稱為有序因素。它們可以透過建立普通因素的方式建立，但需要額外指定ordered=TRUE。

輸入

state.region # 因素示例：注意級別已打印出來

state.name # 這*不是*因素 state.name[1] <- "Any text" # 可以在字元向量中替換文字 state.region[1] <- "Any text" # 但不能在因素中 state.region[1] <- "South" # 這可以 state.abb # 這不是因素，只是字元向量

character.vector <- c("Female", "Female", "Male", "Male", "Male", "Female", "Female", "Male", "Male", "Male", "Male", "Male", "Female", "Female" , "Male", "Female", "Female", "Male", "Male", "Male", "Male", "Female", "Female", "Female", "Female", "Male", "Male", "Male", "Female" , "Male", "Female", "Male", "Male", "Male", "Male", "Male", "Female", "Male", "Male", "Male", "Male", "Female", "Female", "Female") #a bit tedious to do all that typing

可能更容易使用程式碼，例如，女性使用 1，男性使用 2

Coded <- factor(c(1, 1, 2, 2, 2, 1, 1, 2, 2, 2, 2, 2, 1, 1, 2, 1, 1, 2, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 1, 1, 1)) Gender <- factor(Coded, labels=c("Female", "Male")) # 然後可以將其轉換為命名級別

結果