跳轉到內容

R 中的資料探勘演算法/包/RWeka/Weka 分詞器

來自華夏公益教科書，開放的書籍，為開放的世界

< R 中的資料探勘演算法 | 包 | RWeka

描述

[編輯 | 編輯原始碼]

R 與 Weka 分詞器的介面。

用法

[編輯 | 編輯原始碼]

AlphabeticTokenizer(x, control = NULL)

NGramTokenizer(x, control = NULL)

WordTokenizer(x, control = NULL)

引數

[編輯 | 編輯原始碼]

x，一個字元向量，包含要分詞的字串。

control，一個 Weka_control 類物件，或者一個控制選項的字元向量，或者 NULL（預設值）。

細節

[編輯 | 編輯原始碼]

AlphabeticTokenizer 是一個字母字串分詞器，其中分詞僅由連續的字母序列組成。

NGramTokenizer 將字串拆分為 n 元組，並具有給定的最小和最大元組數量。

WordTokenizers 是一個簡單的單詞分詞器。

返回值

[編輯 | 編輯原始碼]

一個包含分詞字串的字元向量。

檢索自 "https://wikibook.tw/w/index.php?title=Data_Mining_Algorithms_In_R/Packages/RWeka/Weka_tokenizers&oldid=1967873"

書籍：R 中的資料探勘演算法

華夏公益教科書