谷歌的神經翻譯系統並不意味著機器翻譯到頭了，還有大把創新可做

雷鋒網按：本文是清華大學教授、中國中文資訊學會副理事長孫茂松在MIFS 2016上的演講實錄，雷鋒網編輯整理。此次在北京舉辦的MIFS 2016是由中國人工智慧學會、中國工程院戰略諮詢中心主辦，今日頭條、IEEE《計算科學評論》協辦的2016機器智慧前沿論壇，這次論壇同時也是2016 BYTE CUP國際機器學習競賽的頒獎儀式。

在MIFS 2016上，孫教授的演講回顧了機器翻譯波折的發展歷程，同時分享了在神經翻譯系統之後他們在提升機器翻譯上的實踐。

“演算法+大資料+計算力

”

這是我的題目，《當巧婦遇到“大米”——機器翻譯啟示錄》。大家一看就知道來自中國的一句成語，叫巧婦難為無米之炊。巧婦指好的演算法，大米是大資料的意思，好的演算法遇上了大資料，當然還得有一個灶台，灶台就是強大的計算能力。這三件事放到一起，對於機器翻譯就會產生很多有趣的事情。

整個的報告以機器翻譯為主線展開，大概分四部分：

第一叫做機器翻譯的波瀾史，幾十年的發展一波三折，非常有意思；

第二是機器翻譯現在主流的技術神經機器翻譯，還是可以改進的。我可以給大家看一些例子，並不是穀歌就做到頭了，還有很多的空間。

第三就是機器翻譯在技術實際上是通用的，其實它是個一般性的原理，可以放到很多的領域，所以我會講應用拓展，用電腦自動創作古詩為例。

後面是幾句結束的話。

穀歌前幾個月發佈了新的機器翻譯系統，這個系統實際上是完全基於深度神經網路的一個系統。如果說翻譯的最高境界是Perfect，人也做不到完美，谷歌翻譯在西班牙語到英語、法語到英語以及英語到西班牙語的翻譯上和人做得差不多。但中文到英文和英文到中文的翻譯跟人比差別比較大。實際上中文是世界上最難處理的語言之一，所以機器翻譯肯定不好做。但是不管怎麼樣這個結果非常震撼。

機器翻譯興起，一波三折

回顧一下機器翻譯的歷史，這個歷史很有趣。這個研究應該不是凡夫俗子發起的，實際上是有大智慧的人開始做的一個事情。機器翻譯之父叫Warren Weaver，他在49年和資訊理論之父香農合著寫過一本書，47年3月4日他給控制論之父Norbert寫了一封信，在裡面提出了機器翻譯的可能性。他說這個事兒，如果咱們翻譯叫信達雅三個要求，達雅做不到，信還是可能的。

Warren Weaver在49年寫了一個《翻譯》備忘錄，不長，但是提出了系統翻譯的思想，裡面有四條是關鍵的，我簡稱叫W.W.建議。

第一條談到了意義和上下文，比如說語言中有歧義，歧義要在一個視窗裡解決，就是上下文；

第二個說到語言與邏輯，就離不開句法語義分析，得到了語義數分析數才能抽到邏輯，這點強調了語言分析對機器翻譯的重要性；

第三個從資訊理論和密碼學的角度提出要研究語言的統計語義性質，這個是從香農的資訊理論角度出發；

第四條提出了普遍語言的問題，也就是語言之間有通用性。

當時他好像漫不經心寫了一個備忘錄，基本上機器翻譯後來到我們目前這幾十年的發展，都是按他的框架做的，這是非常了不起的。當時從1947年到56年，我把接下來的時間叫大潮初起，他說這個事兒以後全世界都在做，當時都是世界說最好的單位在做，比如IBM、麻省理工學院。

四條備忘中：一和三基本上是統計，我們後來稱為經驗主義；二和四是基於規則，叫理性主義。

最初大家的研究都沿著規則的系統往下走，因為你做語言處理總要循著人類的語言處理分析做詞法分析、語義分析。很快，到了1954年、55年就有這種實驗，主要在美國和前蘇聯，實際上是和冷戰有關係，大量的跟軍事相關的跟情報需要被翻譯。但很快地大概到1957年到66年這個階段，就要從第一次波峰跌到了波谷，當時機器翻譯其實做得還是很好的，像哈佛、伯克利都在投入，包括中國做機器翻譯很早，58、59年國內就做出了一些俄中的機器翻譯系統。

系統出來以後大家就可以看看結果，審視結果以後覺得沒有那麼樂觀。最著名的就是60年以色列的著名哲學家、數學家和語言學家Bar-Hillel發表了一篇文章，他最初做機器翻譯是很積極的，包括全世界第一次機器翻譯國際會議也是他組織的。但他後來實際上下了一個判斷，就是機器翻譯不行，做不了。

他舉一個很簡單的例子：Little john was looking for his toy box. Finally he found it. The box was in the pen（盒子在圍欄內）。

因為pen有兩個意思，一個是筆，一個是圍欄，到底是鋼筆放在盒子裡，還是盒子放在圍欄裡。這裡面很複雜，你需要看更遠的上下文，需要知識才能解決，所以他的觀點是比較悲觀的。

另外當時還有一個故事，也很有趣，也是一個測試，英文輸入：

The spiit is willing，but the flesh is weak.

精神是願意的，但肉體確實不願意的。

要把這個翻譯出來，但是經過機器翻譯成俄文，再把它翻譯回英語，得到了令人啼笑皆非的結果，

伏特加酒是好的，但肉卻腐爛了。

這個例子雖然發表了，但也有人質疑它的真實性。但確實能說明那個時候機器翻譯的水準。

1964年，美國政府成立了一個機構ALPAC委員會，由權威人士組成，對當時美國機器翻譯情況進行了評價。這個報告非常有名，也有人稱為機器翻譯的黑皮書，基本宣佈機器翻譯是不可行的，結論是全自動機器翻譯基本否定，建議做機器輔助翻譯，二是機器翻譯遇到了難以克服的語義屏障問題，應該加強對電腦語言學的研究。

下麵的階段是1967年到89年，波瀾不驚水長流，機器翻譯的研究中心從美國轉移到了加拿大和歐洲。

在這些研究中，針對

W.W. 第4條原則加強了，因為歐洲語言有很多種，通用語言就變得至關重要。還是有一些商用系統出現，特別是用在國防，但不是面向公眾。這個期間對句法語義分析研究大量出現，實際上是為完美的實現基於理性主義的想法創造了非常好的基礎。

下面是1990年到現在，實際上形成了一個新的波峰，是通過兩個衝擊波上來的。90年對於計算是一個有劃時代的意義，在赫爾辛基的第13屆國際計算語言學大會提出處理大規模真實文本的戰略任務，所以大資料的思想做自然語言處理，我認為是這差不多第一提出的，在整個科學領域它提的是最早的，整個研究是基於大規模真實語料，這塊別的領域提的很少，我認為自然語言處理是最早用的，因為那個時候大量的真實語料開始有了，包括雙語語料成規模地出現，所以第一個衝擊波叫統計機器翻譯模型，也就是最著名的IBM模型1-5。以前的翻譯服務是面向特定使用者的，這個是面向廣大用戶的。

當時很有名的一個學者叫Och，有一句話很有名，說只要給我充分的並行語言資料，對於任何兩種語言，我就可以在幾小時之內給你構造一個機器翻譯系統。我靠統計翻譯方法就可以作出這個事情，這就徹底摒棄了以前沿著理性主義道路全面改成經驗主義，這裡面基本語言學家沒有什麼機會，只要你給我雙語料就可以作出系統，穀歌幾十個語言都是機器翻譯，都是很容易做出來的，所以我叫理性終結主義。

但很快，大概2014年左右推出了神經機器翻譯，就把剛才的終結者再度終結了。像穀歌、百度現在已經用神經統計機器翻譯系統替代純粹的統計翻譯系統，所以你去看其實發展到這就是好的神經網路演算法、有大資料、還有GPU的積累。所以這是一個發展的歷程。

神經翻譯系統並不意味機器翻譯到頭了，還有大量的創新可做

神經機器翻譯系統還是有很多的問題，我們剛才講的

精神是願意的，但肉體是虛弱的。

我拿谷歌翻譯成中文這是翻譯結果：

精神是願意的，但肉體是軟弱的。

翻譯成俄文再翻譯回來基本也是原話，翻譯成苗語再翻譯回來，一來一去看品質確實不錯。但它可能還有別的問題。

比如說in the box那個問題還是不行的，現有模型就是雙語語料，肯定做不對，你隨便測試一些東西，也不用太難為它，比如我說：”閻肅是個好同志，閻肅是一個作家。“它就完了，你再看翻譯泰戈爾的《飛鳥集》，還是有問題的，是不完美的，有很多需要改進的。

我簡單說一下清華大學的工作，我們科技組有一個劉老師，機器翻譯做了很多的研究，比如說我們可以把最小風險的訓練，不是用最大MSE，把這個東西嵌入到函數裡，最後這個結果就非常好。你比如說像BLEU值是0.3338，這是最小的翻譯值，我們可以做到0.4091。

這是翻譯的例子：比如美國代表團包括來自斯坦福大學的一位中國專家，兩名參院外交政策助理以及一位負責與平壤當局打交道的前國務院官員。這個翻譯結構挺難的，靠統計機器翻譯是做不好，你看效果就很差，這是我們SMT的效果。你用SMT傳統有一些毛病，我們可以避免這個問題。

這個是我們對比了我們的系統和穀歌、百度等等的翻譯效果。

再往下，其實我們還有一個改進就是中到英、英到中儘量一致，有一些策略，一來一去應該儘量一致，現在的方法是你孤立的看不一致，你再去看它的對齊，就會對的比較好，對的好以後效果也會好，你看中到英，獨立訓練是BLEU值23.63，聯合訓練就是26.42，效果比較好。

還有一個改進。雙語語料的獲取比較難，單語語料比較容易得到，如果用中文的單語語料和英文的單語語料放到這個模型裡訓練效果也會提高。比如如果不用單語語料值大概31.74、15.14，如果使用了任何一種單語語料，效果從31.74就可以到36.45，很顯著的提升。

穀歌的神經翻譯系統不是把事兒做完了，裡面你的任務還可以提出很多的創新性的想法，提高系統性能，對研究還是大有用武之地的。

機器翻譯的拓展應用：以古詩創作為例

機器翻譯是通用模型，我拿它做古詩創作，這個工作是和我的兩個本科生同學合作完成的。這種通用方法對我們很多行業都是一個機會，現在的人工智慧氣候已經形成，基本的方法就擺在這了。比如LSTM模型。現在到了收穫季節，看誰去摘桃子，找對問題，把桃子趕快摘下來。從研究角度第一個做這個事情是好的研究，第二個做的就變成作業了，所以一定要快。

古詩實際上它的複雜度不比下圍棋低，而且它是從人文角度，我不知道在座各位多少還能作古詩，80%應該做不過我這個系統。用的是LSTM，但是我們有改進，不是在上面跑就可以作出這個效果，我給大家看結果，這個模型可以比較好的捕捉到詞之間的相似性，句子之間的相似性，有些詞創作非常有意思，你送給系統上句叫：江上西風一棹歸。下句就自動生成：夕陽不見客舟歸（江上的風浪不小，船到下麵看不到夕陽了）。感覺意境還是不錯的，比如：又聽西風墮葉聲，下面是電腦產生的：萬事盡隨天籟起。這兩句詩你查古人是沒有的，是電腦創作出來的。

對仗性，第一個叫星垂平野擴，月落遠林疏。對的還是挺好的，比如給一個主題詞，隨便說給秋葉，下面系統創作出來的，白蘋江上驚秋雁，我們把所有的古詩送進去訓練，這個掌聲應該給兩位同學。我們也做過評測，和人比PG是人，還是要差一點，古詩多了，上百萬首，其實分別不算太遠，但是比古人做的還是有差異的。可以做藏頭詩，因為撒貝南的名字有點怪，你給我弄個撒貝南酷，電腦做的撒手離亭送別情，貝葉無夢到孤城，甯知梅嶺遙相望，酷似清風入夜生，還挺有意境的。其實你可以隨便遷入，電腦做這個事情容易。

還有一個是自動做集句詩，是古代考察這個人書讀得夠不夠的一個本領，就是你做一首詩都是古人做的，聽起來要意境，這是一個很經典的叫楓葉蘆花並客舟，煙波江上使人愁，勸君更進一杯酒，昨日少年今白頭，這是我們做的五絕，江南楊柳春，二月芳草新，千里一回首，青青向故人，這也是拼的，都是古人的詩。

我們還在摘桃子，但是也在改進，但是你會看到有了這麼通用的工具，我們花半年的努力，搞一兩個比較行的學生就有可能把桃子摘下來，我呼籲大家趕緊摘桃子。

你去看機器翻譯整個歷史，這句話特別貼切——山重水複疑無路，柳暗花明又一村。我們遇到很多這種情況，有的時候做感覺做到頭了，但是又有新的路出來，不是靠技術細枝末節的積累，是靠創新性方法，都是創新性終結性的方法把境界不斷的提高，所以創新特別重要，這裡面有很多的挑戰，其實包括一帶一路，你神經網路分析基本假設沒了，大資料沒了，因為雙語不會那麼多，這裡有很多挑戰。這塊我認為理性主義和經驗主義將來還會在某種程度實現回歸，不可能完全都是經驗主義往前走，這個問題就更深了。

總的想法就還是我們要創新，你看這個機器翻譯歷史上，我們中國人的創新很少，我們基本都跟著人家跑。像穀歌的深度學習神經網路出來以後，當時我看到這個報導覺得這個模型幾乎人家都做出來了，我還覺得這個事兒不可思議，這是差距。為什麼？因為那個模型，比如說把你們這些人打一個包一壓縮以後分解成那邊的那波人，相當於做這樣一個映射，這邊人捆成一個向量變換成那邊一群人，成一個向量，一大堆壓成一個單體，再單體產生一大堆，邏輯還要保持，這個事兒一想非常不可思議，但是確實靠很大的模型就建立這麼一個複雜的映射，我們的創新能力確實不夠，所以創新能力要注意。

第二點，既然到了秋季趕快摘桃子，創新能力不夠，但是畢竟到了收穫季節，你還是利用人家的創造季節還是可以做很多的有創造性的創新性的事兒，比如剛才的古詩就是一個例子。

本文題圖雷鋒網引用自：視覺中國

谷歌的神經翻譯系統並不意味著機器翻譯到頭了，還有大把創新可做 | MIFS 2016

2016年第四季度全球手機出貨量：蘋果重回第一，三星緊跟其後

《2016鳥瞰新重慶》出爐我為重慶驕傲

《2016鳥瞰新重慶》完整版震撼出爐！

阪本應該不是最屌的 2016年神經病番大盤點

安卓系統成2016年發現漏洞最多的軟體產品：數量達523個

2016：AI改變的不僅僅是谷歌翻譯，還有程式師的飯碗

機器人作業系統的發展狀況和未來優化 | 2016 高工年會

IFA 2016 | 五軸防抖相機加持，索尼正式發佈 Xperia XZ

IFA 2016 | 示好女性用戶？華為 Nova / Nova Plus 正式登場

IFA 2016 | 漂亮實力派，三星發佈 Gear S3 智能手錶

IFA 2016 | Moto Z Play 登場：可接哈蘇相機，可用 50 小時

解碼2016潮流趨勢，做時尚界的“翻譯官”