隨時代演進的自動翻譯,Google翻譯的神經機器技術

在資訊流通的現代,網路上有50%的內容是以英文呈現,但全球卻只有20%的使用者是以英文為其主要語言,從中可以看到人類對翻譯的需求。就連在網路尚未普及的60多年前,人們也為了節省翻譯的人力、追求更佳的翻譯效率、速度與品質,發展出了用電腦程式分析原始文本,然後自動將原始文本翻譯為譯本的機器翻譯技術。這項技術一直以來採用的,是依照研發人員為翻譯所需之文法規則所設計的模式來進行翻譯的「規則性翻譯」。

到了1980年代,著手研究翻譯領域的IBM,則推出了活用大數據(Big Data)的「統計性翻譯」。這項堪稱典型AI的翻譯技術可在統計和整理大量的翻譯資料後,自動製作相當於翻譯規則或辭典的資料庫,進而辨識翻譯文句前後順序和段落,決定適當的翻譯內容,並且持續學習;即使不明白文法和單字的意義,只要翻譯資料庫的內容充足,就能在短時間內架構出適當的翻譯模式。

隨著資訊通訊科技、人工智慧、雲端運算、行動網路、大數據分析等一系列的演進,2016年發展出了比統計性翻譯更進步的神經網路(Neural Network)翻譯技術。它與統計性翻譯相同,能參考大量的翻譯文句資料,並藉著具備多層神經元的深度神經網路進行機器學習,發展出獨自的一套翻譯系統,進而學習辨識句子中的模式和結構,並挑選恰當的詞語,使最後翻譯出的語法更趨近日常對話、更順暢且易於閱讀,不再只是片段式地翻譯。

目前廣加運用神經網路翻譯之技術的Google翻譯,其應用程式支援多達103種語言、93種手寫輸入語言詞組,整個系統至2017年4月導入26組語言組合之後,共可翻譯41組語言組合。據Google翻譯產品經理Julie Cattiau指出,目前推出的語言組中,共有10組語言組已經採用Google神經機器翻譯系統(GNMT),讓平均錯誤率比以往的統計性翻譯減少了60%。此外,導入神經機器翻譯技術之後,Google 翻譯現在僅需要一套系統就能完成多元語言翻譯,簡化了過去需要建構多個不同翻譯系統造成可觀的運算成本的問題。

Google翻譯希望在未來能適時地截斷或捨棄來源句子裡的單詞,並且加強數字與日期翻譯,同時為簡短、罕見字串、稀有名詞與品牌進行更正確的翻譯成果。
參考新聞來源:ETNEWS新聞雲/3C科技

Related post

Return Top