統計機器翻譯

語言模型

語言模型用於 MT 的 a) 對任意詞語序列 (token) 進行評分，以及 b) 給定一個 token 序列，預測下一個最有可能出現在該序列中的 token。正式地說，語言模型是在給定語言中 token 序列上的機率分佈。

最近，人們發現可以使用子詞、字元甚至位元組作為語言建模的基本單元^{[需要引用]}。有一些活動特別關注此類模型，以及一般情況下在子詞單元上處理語言資料，例如SCLem 2017。