跳轉到內容

機器翻譯/歷史

來自華夏公益教科書,開放世界開放書籍

機器翻譯簡史

[編輯 | 編輯原始碼]

早期(1940年代)

[編輯 | 編輯原始碼]

第一臺計算機

[編輯 | 編輯原始碼]

機器翻譯的明顯先決條件是計算機。儘管人們對什麼是計算機有不同的定義,它們在 1940 年代開始出現。

零代計算機:Z1–3、Colossus、ABC、Mark I、Mark II。然後出現了第一代計算機:ENIAC、MANIAC。

值得注意的是,在 1947 年,RAM 只能儲存 100 個數字,並且像這樣的簡單運算只需要幾分之一秒。

資訊繁榮

[編輯 | 編輯原始碼]

大約在同一時間,世界開始比以往任何時候都生產和廣播更多資訊。1922年,英國廣播公司(BBC)開始定期廣播,1936年,BBC電視臺也隨之成立。

早期信念

[編輯 | 編輯原始碼]

當時人們對翻譯的看法還很天真。一些研究人員[需要引用]將翻譯視為一種重複性的活動,非常適合由計算機執行。為什麼不呢:計算機成功地用於破解戰爭密碼,它們似乎也很適合破解語言。

早期繁榮(1950年代)

[編輯 | 編輯原始碼]

1950年,沃倫·韋弗(Warren Weaver)向200個收件人傳送了一份備忘錄,其中概述了機器翻譯的一些問題。

  • 多義性(歧義)是一種常見現象,
  • 邏輯與語言的交集,
  • 與密碼學的聯絡,以及
  • 語言的普遍屬性。

他的觀點可以從一句著名的引言中看出[需要引用]

當我看到一篇俄語文章時,我會說:這實際上是用英語寫的,但它用一些奇怪的符號編碼了。我現在將開始解碼。
—沃倫·韋弗, 來源?

早期對機器翻譯的興趣在多個機構得到推動:倫敦大學(安德魯·D·布斯)、麻省理工學院、華盛頓大學、加州大學、哈佛大學等等。

1952年,第一次公開會議在麻省理工學院舉行,兩年後,第一個可工作的機器翻譯系統的展示隨之而來。

最初的主題包括

  • 形態和句法分析,
  • 意義和知識表示,以及
  • 建立和使用電子詞典。


當時,艾倫·圖靈(Alan Turing)專注於人工智慧,但他沒有參與機器翻譯研究。[需要引用]

喬治城實驗

[編輯 | 編輯原始碼]

第一個可工作的機器翻譯原型於 1954 年 1 月 1 日在紐約的 IBM 公開展示。這是計算機用於非數值任務的例子。

該實驗展示了從俄語到英語翻譯 60 個句子(可能是精心挑選的)。該系統包含一個包含 250 個單詞的詞典和一個包含 6 個規則的基本語法。

由於翻譯結果準確,因此該演示在研究人員中引起了強烈的熱情,並在美國和蘇聯催生了許多專案。

理論語言學(諾姆·喬姆斯基)和人工智慧(艾倫·圖靈)蓬勃發展。


Clipboard

待辦事項
連線段落


但很快人們就發現,隨著機器翻譯系統的覆蓋範圍越來越廣,其輸出質量也下降了。

1950年代,計算機首次用於生成藝術作品,例如愛情詩歌(1952年)[需要引用]

第一篇關於機器翻譯的博士論文(1954年)獲得答辯,《機器翻譯雜誌》(1954年)開始出版,第一次國際機器翻譯會議在倫敦舉行(1956年),諾姆·喬姆斯基(Noam Chomsky)撰寫了他的著名著作《句法結構》(1957年),第一本關於機器翻譯的書籍(入門書)在巴黎出版(1959年)。

除了美國,蘇聯和日本也關注機器翻譯。

失望(1960年代)

[編輯 | 編輯原始碼]

1959年,著名的機器翻譯批評者耶胡達·巴希勒(Yehoshua Bar-Hillel)寫了一篇關於機器翻譯現狀令人不滿的文章。他聲稱計算機無法解決語言中的一個重要現象:詞彙歧義。他創造了“全自動高質量翻譯”(FAHQT)這個詞,並聲稱它無法實現。

他舉的一個著名的例子是計算機難以處理的句子:小約翰正在尋找他的玩具箱。最後,他找到了。箱子在鋼筆裡。約翰非常高興。 其中“鋼筆”的使用意義明顯不同於該詞的常見含義。但為了讓計算機消除歧義,它們需要了解世界,並且知道箱子通常不會放在書寫工具裡。

可能是由於他和其他人批評的結果,機器翻譯專案的資金供應開始減少。

當時的蘇聯機器翻譯專注於翻譯英文科學論文(摘要)。

1962年,美國機器翻譯協會(Association for MT)在美國成立。大約在同一時間,彼得·托馬(Peter Toma)離開喬治城[需要引用],開始開發 AUTOTRAN,該系統後來成為 Systran,成為在接下來的幾十年中最成功的機器翻譯軟體之一。

ALPAC報告

[編輯 | 編輯原始碼]

對機器翻譯研究致命的打擊是 1966 年為美國國家科學院準備的 ALPAC 報告(自動語言處理諮詢委員會)。

該委員會對機器翻譯的質量和可用性進行了分析和評估,並建議美國政府減少對機器翻譯研究的支出[需要引用]。它聲稱研究人員低估了自然語言理解的複雜性,因此,該報告對機器翻譯領域產生了深刻的負面影響。

儘管如此,機器翻譯研究在歐洲、蘇聯和日本不受影響,但美國在資金支援下降後花了 15 年時間才追趕上世界其他國家在機器翻譯方面的研究。

加拿大的機器翻譯研究

[編輯 | 編輯原始碼]

當時,在加拿大蒙特利爾大學,機器翻譯研究取得了一些成功。研究人員開發了一些可工作的機器翻譯系統原型,即 TAUM-73、TAUM-METEO。這些是第一個將源語言的適當分析和目標語言的合成結合在一起的系統。

英法(以及法英)語言對是研究主題。一個名為TAUM Aviation的專案專注於技術手冊的翻譯,後來被取消了。[需要引證]

後來,METEO 系統在 1981 年至 2001 年期間被用於天氣預報翻譯。該系統由約翰·陳迪烏開發。

在 1960 年代末,Systran 成立,是開發機器翻譯系統最古老的公司之一。同名的軟體廣受歡迎,後來成為雅虎巴別魚的基礎。它也一直被谷歌使用到 2007 年。

它最初是一個基於規則的系統,但從 2010 年開始,Systran 成為了一個混合系統,也結合了統計方法。

復興期(1970 年代和 1980 年代)

[編輯 | 編輯原始碼]

第一個蘇聯機器翻譯系統 AMPAR 用於將英語翻譯成俄語。自 1976 年以來,Systran 一直被用作歐洲經濟共同體的官方機器翻譯系統。施樂開始使用 Systran。一個專案建議使用世界語作為中介語,但被否決了。

使用中介語的基於規則的系統開始出現。1980 年,羅塞塔專案開始使用邏輯公式作為中介語。

第一個資料驅動(基於例項的機器翻譯)出現。機器翻譯系統已經足夠好,可以產生收入,並被商業化。Trados 是第一家開發 CAT 工具的公司,成立於 1984 年的斯圖加特。歐盟專案 EUROTRA 啟動。

為了瞭解背景:1983 年,IBM 推出了其 8 位 ASCII 碼,1987 年,Unicode 專案開始。全球資訊網提案在 1989 年問世。

統計機器翻譯的興起(1990 年代)

[編輯 | 編輯原始碼]

IBM 為世界貢獻了另一顆寶石:統計機器翻譯誕生於 1990 年代初。SDL(目前 CAT 市場領導者)於 1992 年在英國成立,後來收購了 Trados。Verbmobil 專案運行於 1992 年至 1999 年之間,它催生了一些機器翻譯方法。

雅虎巴別魚在 1997 年每天的請求量達到 500,000 次[需要引證]。第一個線上商業機器翻譯服務 iTranslator 出現。

在這十年中,基於規則的系統仍然主導著這個領域。

新千年

[編輯 | 編輯原始碼]

統計方法取代了該領域,第一個混合系統開始出現。隨著新資料的收集和數字化,新的翻譯語言對(語言)被新增到機器翻譯系統的庫中。

NIST 在 2001 年啟動了第一輪機器翻譯系統基準測試。

EuroMatrix 是一個大型的由歐盟資助的專案,它於 2006 年啟動,Moses 是一款高度成功的(因為它是開源的)統計機器翻譯引擎,它於一年後誕生。


Clipboard

待辦事項
新增一個來自那個時代的預後圖表


計算能力穩步增長,谷歌是領軍者之一。例如,使用一種新的海量資料技術 MapReduce,研究人員僅用 6 個小時就成功地在 4,000 臺計算機和 48,000 塊硬碟上對 100 億個 100 位元組的記錄進行排序。計算能力允許在眨眼之間處理數十億個單詞,並且得益於像 Moses 這樣的專案,機器翻譯變得對每個人都可用。


Clipboard

待辦事項
新的資料結構,字尾陣列和樹



Clipboard

待辦事項
谷歌 N-gram


與此同時,新的平行資料正在開發中。有一些專門的活動(LREC)定期展示來自世界各地語言的新資源。對資源不足的語言也進行了處理,總的來說,機器翻譯質量緩慢但穩定地提高。

2010 年及以後

[編輯 | 編輯原始碼]

人們對源語言和目標語言有不同的興趣。資源不足的語言往往被忽視。在歐盟,重點是所有官方語言(英語、保加利亞語、捷克語、克羅埃西亞語、丹麥語、愛沙尼亞語、芬蘭語、法語、愛爾蘭語、義大利語、立陶宛語、拉脫維亞語、匈牙利語、馬耳他語、德語、荷蘭語、波蘭語、葡萄牙語、羅馬尼亞語、希臘語、斯洛伐克語、斯洛維尼亞語、西班牙語和瑞典語)。說英語的國家將其視為主要的目標語言。相反,全球市場和公司希望將他們的產品推向世界各地的人們,因此目標語言是發達國家的語言,源語言通常是英語。

從某種意義上說,有些語言(和語言對)比其他語言更大(通常在數字媒體中覆蓋得更好)。它們也實現了更好的翻譯質量(英語-西班牙語、英語-法語)。

統計方法透過語言學技術(句法、語義)和神經語言模型來增強,以實現最先進的結果。

谷歌翻譯被認為是金標準。

形態豐富的語言通常更難翻譯。

英語-XXX 和 XXX-英語語言對佔很大比例。

模板:待辦事項:引文和更流暢的文字

自 2015 年以來,統計方法正在慢慢被神經網路技術取代,並在排行榜上名列前茅。

機器翻譯現在由於智慧手機的存在而隨處可見。它用於獲取大意,用於網頁的即時翻譯(可能是機器翻譯最常見的用途[需要引證]),用於加快 CAT 工具中的人工翻譯,用於跨語言資訊檢索(CLIR),用於移動裝置上的即時訊息和其他電子通訊,用於翻譯語音到語音,甚至影像到影像。


Clipboard

待辦事項
新增示例


關於機器翻譯歷史的進一步閱讀

[編輯 | 編輯原始碼]

線上資源

[編輯 | 編輯原始碼]
華夏公益教科書