Lentis/谷歌翻譯
谷歌翻譯是一種機器翻譯服務,用於書面文字、語音和影像中的文字[1]。自2006年推出以來,該服務已在網上和作為應用程式提供,包括離線功能。截至2018年,共有103種語言可用,每天翻譯超過1000億字,其中92%以上的翻譯來自美國以外[2]。此外,還有許多功能,例如文字發音、單字字典和“短語集”翻譯儲存以供日後使用。
2016年,谷歌推出了其神經機器翻譯(NMT)系統,該系統是機器學習演算法處理複雜資料的框架[3]。透過這種設計,網路首先將原始句子編碼為一個單獨向量列表,每個向量代表一個單詞的含義。一旦句子被讀取,解碼器就開始生成新句子,使其專注於對相關編碼向量的加權分佈[4]。這樣做的好處是,向量將它們周圍的向量納入上下文,以便一次一個詞地產生正確的翻譯。與基於短語的機器翻譯相比,這種演算法將整個輸入句子作為一個整體進行翻譯,而不是更小的單個塊。
谷歌的神經機器翻譯目前僅適用於特定語言;但是,還有許多其他語言正在開發中。隨著翻譯質量的提高,新實現的翻譯質量已經非常接近人類水平[5]。
作為一項糾正措施,谷歌翻譯採用了一個“翻譯社群”。使用者可以註冊成為特定語言的使用者,檢查提供的翻譯的準確性,並提供谷歌不確定的詞語和短語的翻譯。他們還有一個徽章和獎項的激勵系統。此外,即使那些沒有註冊的人也可以點選谷歌翻譯的翻譯並提供一個替代方案,谷歌會用它來提高翻譯質量[6]。

在2018年俄羅斯世界盃期間,谷歌翻譯的用量大幅飆升。在俄羅斯境內,總用量增加了30%,包含“世界盃”短語的查詢增加了200%[7]。甚至“啤酒”這個詞也增加了65%。
2017年,英國一家法院不得不依靠谷歌翻譯來通知被告,由於無法找到口譯員,訴訟程式必須推遲[8]。雖然這是一個好的使用,但它表明法院還沒有準備好依賴該服務本身在實際審判期間進行溝通。
在2017年的美國訴克魯茲-薩莫拉案[9]中,谷歌翻譯被用於警察和司機在交通攔截期間的溝通,這導致了非法物質的發現和克魯茲-薩莫拉先生的逮捕。問題是克魯茲-薩莫拉先生是否能夠在透過谷歌翻譯提出的問題的基礎上,對搜查他的汽車表示知情同意。警察問的問題是,“我可以搜查汽車嗎?”,翻譯成 “¿Puedo buscar el auto?”。雖然從字面上來說是正確的,但翻譯回英文後就變成了“我可以找到汽車嗎?”,被告首先回答“我不明白”,在重複問題後,回答“是的,是的。請便。” 法院裁定,警察不能用谷歌翻譯可靠地與他人交談,因此無法獲得他人的同意。此案為谷歌翻譯在美國法庭上不足這一先例確立了 precedent。
由於訓練翻譯試圖使材料與外國受眾相關,因此谷歌翻譯有可能學習到有趣的“翻譯”。例如,它將俄語中的“伊凡雷帝”翻譯成英語中的“亞伯拉罕·林肯”[10]。這種現象可能是由於翻譯人員使用這些姓名作為強大中央領導人的例子,他們的受眾會認得。
儘管 Google 翻譯非常智慧,但它無法替代人類的判斷。考慮一下葡萄牙語的習語“tirar onda”,意思是“開玩笑”。 Google 翻譯逐字翻譯成“乘浪”。人類翻譯會意識到這個短語不是字面意思的翻譯。使用者如果對源語言或目標語言不熟悉,而依賴機器翻譯可能會導致混淆和錯誤,因為他們無法運用自己的最佳判斷。
Google 也有能力捕捉語言背後的深層含義,即使有時它不應該這樣做。例如,將“I’m a flat-earther”從英語翻譯成法語時,翻譯成“I’m a crazy person”。它發現當人們使用“flat-earther”這個詞時,指的是一個有非尋常信念的人。然而,隨著真正相信地球是平坦的人越來越多,該系統無法應對該詞對這群人的字面含義。

這種錯誤信任現象的一個例子甚至不涉及該服務。 2008 年,威爾士的一塊雙語路標將“我現在不在辦公室。請將所有需要翻譯的工作傳送給我”作為該標牌英文資訊的威爾士語翻譯[11]。具有諷刺意味的是,在這種特殊情況下,道路規劃人員本可以使用 Google 翻譯來發現錯誤。
Google 翻譯基於人類建立的翻譯,這些翻譯通常將原始文化概念替換為目標受眾的文化概念。這為人類偏見提供了出現的機會。例如,在加泰羅尼亞語中輸入“Barcelona, Catalonia”時,西班牙語翻譯為“Barcelona, Spain”。[12] 這種翻譯反映了西班牙文化中關於加泰羅尼亞獨立的民族主義情緒。
Google 翻譯主要從聯合國和歐洲議會記錄以及《哈利波特》等翻譯成多種語言的暢銷小說中學習。[13]。因此,存在著以歐洲為中心,特別是以盎格魯為中心的偏見。在義大利語和西班牙語等兩種類似語言之間進行翻譯,可能會因為英語與每種語言的距離而引入錯誤,而聯合國或歐盟中作用較小的國家的語言源材料較少,因此翻譯的準確性較低。
Google 翻譯還根據網際網路上該語言的翻譯文字數量來選擇新增到其列表中的語言[14]。這意味著,網際網路上代表性不足的群體,特別是那些網際網路接入較少的群體,不太可能很快看到他們的語言被提供。這形成了一個反饋迴圈,即網際網路上語言文字較少的群體無法使用 Google 翻譯,因此他們對網際網路的可訪問性有限,這反過來又使得將他們的語言文字放到網際網路上變得更加困難。提高對小型語言群體或瀕危語言使用者的可訪問性是 Google 翻譯未來面臨的一個問題。
發現 Google 的人工智慧反映了人類在性別方面的刻板印象。這在許多翻譯中都有體現,特別是從中性詞到包含性詞的翻譯。在翻譯過程中,系統使用來自其資料庫的源文件作為輸入,並學會根據其獲得的知識給出結果[15]。這使系統能夠遵循英語中現有的和以前的模式。例如,根據 DATAUSA 的 2016 年研究,77.5% 的計算機科學家被記錄為男性,而 89.3% 的註冊護士為女性[16]。因此,在從英語翻譯成義大利語時,通常會看到“程式設計師”這一職稱的男性詞語代替女性詞語。從統計學角度而言,鑑於系統反映的資料,它給出了一個合理的結果。
像 Google 翻譯這樣的技術可以降低國際化的障礙。然而,正如 Google 翻譯的性別偏見、英語化效應和可訪問性問題所證明的那樣,重要的是要質疑我們使用的技術如何影響我們在不同文化之間的互動,以及它可能在不知不覺中強加了什麼標準或文化不平等。
人工智慧有侷限性,但正在迅速彌合差距。此外,正如威爾士案例所示,人類本身也不完美。這就提出了兩個問題:我們對人工智慧有什麼標準,這是一個公平的標準嗎?正如克魯斯-薩莫拉案所顯示的那樣,人工智慧的缺陷在目前尚不可接受,至少在法律面前是如此,但當這種情況不再出現時,我們如何處理這種過渡將在很大程度上取決於我們今天是否進行預先思考。
- ↑ https://translate.google.com/intl/en/about/
- ↑ https://www.languageoasis.com/blog/interesting-facts-about-google-translate-you-must-know/
- ↑ https://deepai.org/machine-learning-glossary-and-terms/neural-network
- ↑ https://ai.googleblog.com/2016/09/a-neural-network-for-machine.html
- ↑ https://1.bp.blogspot.com/-jOLa-LdidQU/V-qV2oJn1aI/AAAAAAAABPg/-6OhKKPhxT89Vs9HhyKMEnyG_0ncWGjJQCLcB/s1600/image00.png
- ↑ https://translate.google.com/community
- ↑ https://www.theguardian.com/football/2018/jul/11/google-translate-world-cup-hero-fans-language-barriers
- ↑ https://www.businessinsider.com/teesside-magistrates-court-forced-to-rely-on-google-translate-because-it-had-no-interpreter-2017-8
- ↑ https://ecf.ksd.uscourts.gov/cgi-bin/show_public_doc?2017cr40100-24
- ↑ https://web.archive.org/web/20070912175216/http://google.blognewschannel.com/archives/2007/09/10/google-translates-ivan-the-terrible-as-abraham-lincoln/
- ↑ http://news.bbc.co.uk/2/hi/7702913.stm
- ↑ https://www.vilaweb.cat/noticia/4177847/20140308/google-translate-converts-barcelona-catalunya-into-barcelona-espana.html
- ↑ https://ai.googleblog.com/2016/11/zero-shot-translation-with-googles.html
- ↑ https://productforums.google.com/forum/#!topic/gmail/5Tq3xp8KlKE
- ↑ https://www.fastcompany.com/3010223/google-translates-gender-problem-and-bing-translates-and-systrans
- ↑ https://datausa.io/profile/soc/151131/?compare=291141