跳轉到內容

R 中的資料探勘演算法/包/RWeka/Weka 分詞器

來自華夏公益教科書,開放的書籍,為開放的世界

R 與 Weka 分詞器的介面。

AlphabeticTokenizer(x, control = NULL)

NGramTokenizer(x, control = NULL)

WordTokenizer(x, control = NULL)

x,一個字元向量,包含要分詞的字串。

control,一個 Weka_control 類物件,或者一個控制選項的字元向量,或者 NULL(預設值)。

AlphabeticTokenizer 是一個字母字串分詞器,其中分詞僅由連續的字母序列組成。

NGramTokenizer 將字串拆分為 n 元組,並具有給定的最小和最大元組數量。

WordTokenizers 是一個簡單的單詞分詞器。

返回值

[編輯 | 編輯原始碼]

一個包含分詞字串的字元向量。

華夏公益教科書