跳轉到內容

機器翻譯/評估

來自華夏公益教科書,開放的書籍,開放的世界

為什麼我們需要評估

[編輯 | 編輯原始碼]

在許多 NLP 任務中,研究人員需要知道他們對演算法的更改是否提高或降低了整體效能。在 MT 中,我們評估 MT 系統的效能。

MT 的評估比許多其他 NLP 任務更難,因為一個句子的完美翻譯並不只有一個,有很多語義等價或相似的句子。


Clipboard

要做
在這裡舉一個例子


評估什麼?

[編輯 | 編輯原始碼]

流暢度

[編輯 | 編輯原始碼]

翻譯是否按自然詞序排列?文字是否流暢?是否包含語法錯誤?

充分性

[編輯 | 編輯原始碼]

翻譯是否保留了原文的含義?部分含義是否丟失、新增或扭曲?

可理解性

[編輯 | 編輯原始碼]

翻譯是否可以理解?

人工評估

[編輯 | 編輯原始碼]

在人工評估中,註釋者通常在 5 分制上評估之前的質量[需要引用]

充分性 流暢度
5 所有含義 5 完美英語
4 大部分含義 4 良好
3 很多含義 3 非母語
2 少量含義 2 不流暢
1 沒有含義 1 難以理解


Clipboard

要做
在這裡添加註釋工具的示例


人工評估的缺點很明顯,因為它是

  • 慢的,
  • 昂貴的,
  • 主觀的

註釋者間一致性 (IAA) 研究表明,人們在評估流暢度方面比評估充分性方面意見一致程度更高[需要引用]

評估可以被表述為兩個候選翻譯的比較,這對於註釋者來說可能更容易評估。它可以提高 IAA[需要引用]

後期編輯時間

[編輯 | 編輯原始碼]

節省的成本

[編輯 | 編輯原始碼]

自動評估

[編輯 | 編輯原始碼]

由於人工評估非常緩慢且昂貴,因此使用自動方法。

悖論在於,我們讓計算機評估自動翻譯,這就像讓學生校對自己的文章一樣。問題還在於自動方法通常為給定的參考和候選句子對輸出一個分數,而這個分數並不容易解釋。

主要前提是擁有參考人工翻譯(黃金標準),這些翻譯會與 MT 系統的候選翻譯進行自動比較。每個候選翻譯都會與一個或多個參考翻譯進行比較,然後自動指標量化這種比較。

召回率和準確率

[編輯 | 編輯原始碼]

這兩個指標來自資訊檢索 (IR),也用於評估許多 NLP 任務。它們的調和平均數稱為 F-score,它將這兩個指標組合成一個更容易處理的分數。為了應用於 MT 質量評估,我們需要將候選句子和參考句子表示為詞袋 (BOW)。

準確率定義為候選句子中正確詞語的數量除以候選句子中的詞語數量。召回率的分子相同,分母是參考句子中的詞語數量。

讓我們考慮以下這對句子。機器翻譯系統輸出:我並沒有做錯什麼,參考翻譯:我沒有做錯任何事

很明顯,這個公式沒有捕捉到詞序,所以如果候選翻譯包含所有單詞,但以任何亂序排列,F-score 將為 100%。

N 元語法方法

[edit | edit source]

這類評估指標使用候選句子和參考句子之間的 N 元語法精確度。N 元語法有助於捕捉詞序。

可能最流行的評估指標是 BLEU[citation needed]。它由 Papineni 及其合著者在 IBM 開發。它使用 N 元語法精確度,最高可達 ,並且還會對過短的候選句子進行懲罰。預期正確的翻譯將與參考翻譯具有相同的長度。

候選句子 c 使用以下公式評分

讓我們考慮前面的例子,再加上來自系統 B 的另一個候選翻譯他沒有做錯任何事


Clipboard

要做
新增視覺化效果


指標 系統 A 系統 B
3/5 4/6
0/5 3/6
0/5 2/6
0/6 1/6
簡潔懲罰 5/6 6/6
BLEU 0.00 0.37

NIST 代表美國國家標準與技術研究院,它定義了自己的指標,這些指標源自 BLEU 得分。[citation needed] 它根據資訊價值對 N 元語法精確度進行加權。

Clipboard

要做
新增一個例子


代表 Ngram EVAluation。由於 BLEU 使用 4 元語法精確度,短句子在公式中處於劣勢。NEVA 考慮了這一點,以及使用同義詞評估風格豐富度[citation needed]

編輯距離方法

[edit | edit source]

代表 Word Accuracy For Translation,使用 編輯距離 來比較候選翻譯和參考翻譯。

其中編輯操作包括刪除、替換和插入。分數透過兩個比較句子中較長者的長度進行歸一化。

TER,HTER

[編輯 | 編輯原始碼]

翻譯編輯率。允許將單詞交換作為編輯操作。

TER 可用於多個參考翻譯。


Clipboard

要做
示例


評估可以使用手動準備的翻譯進行,這種變體稱為 HTER(人類 TER)。[需要引用]

其他技術

[編輯 | 編輯原始碼]

許多評估指標沒有考慮同義詞和形態學。當您翻譯成英語並在參考翻譯中使用“boy”而不是“lad”時,例如“He was such a kind lad”,候選翻譯並不錯誤。但如果使用 n-gram 對翻譯進行評分,分數會大幅降低。

為了克服這個缺點,可以在評分中考慮同義詞。比較候選翻譯和參考翻譯的另一個缺點是,有時翻譯錯誤發生在子詞級別,例如選擇了錯誤的字尾(單數 vs. 複數)。同樣,嚴格的基於單詞的評估方法會給出過低的評分。

METEOR 指標試圖透過考慮詞幹(沒有後綴的詞)和同義詞(取自語義網路 WordNet)來緩解這個問題。它使用多個評分公式,例如 NIST 充分性和 WMT 排名,目前支援英語、捷克語、德語、法語、西班牙語和阿拉伯語。


機器翻譯系統的批次評估

[編輯 | 編輯原始碼]

比較不同語言對的平均分數很有趣。


Clipboard

要做
新增矩陣並解釋“暗”和“亮”列和行


往返翻譯

[編輯 | 編輯原始碼]

當您擁有在語言 A=>B 和 B=>A 之間進行翻譯的系統時,您可以嘗試使用所謂的“往返翻譯”將句子翻譯回源語言。在理想情況下,您將獲得相同的句子,但雙重翻譯的句子通常包含錯誤,並且在某種程度上,這可以被視為一種評估。

您可以使用 Translate and BackGoogle Translate 線上嘗試。

用於機器翻譯評估的釋義

[編輯 | 編輯原始碼]

為使用標準指標進行更精確的評估生成多個參考翻譯。

評估評估指標

[編輯 | 編輯原始碼]

由於存在幾種自動評估方法,我們想知道哪一種是最好的。為了衡量評估指標的質量,通常使用與人工評估的比較(相關性)。指標的輸出與對同一組句子的手工評估的相關性越高,指標被認為越準確。

已經舉辦了幾次專門針對評估評估指標的活動,即 MetricsMATRWMT16 Metrics 任務

  1. Michael Denkowski 和 Alon Lavie,“Meteor Universal:針對任何目標語言的特定語言翻譯評估”,2014 年統計機器翻譯研討會論文集,2014 年
華夏公益教科書