R 中的資料探勘演算法/包/RWeka/Weka 分詞器
外觀
R 與 Weka 分詞器的介面。
AlphabeticTokenizer(x, control = NULL)
NGramTokenizer(x, control = NULL)
WordTokenizer(x, control = NULL)
x,一個字元向量,包含要分詞的字串。
control,一個 Weka_control 類物件,或者一個控制選項的字元向量,或者 NULL(預設值)。
AlphabeticTokenizer 是一個字母字串分詞器,其中分詞僅由連續的字母序列組成。
NGramTokenizer 將字串拆分為 n 元組,並具有給定的最小和最大元組數量。
WordTokenizers 是一個簡單的單詞分詞器。
一個包含分詞字串的字元向量。