今年 9 月,Google 發表聲明,基於神經機器翻譯的 Google 翻譯(Google Neural Machine Translation,GNMT)全新上線。神經機器翻譯是端到端的學習架構,它能從數百萬的實例中學習,提供大幅提升的翻譯效果。雖然功能得到了改善,但是讓 Google 翻譯把當下支持的 103 種語言全部採用神經機器翻譯技術,卻是一項巨大的挑戰。 一周前,Google 的工程師們發表了一篇論文 《Google 的多語言神經機器翻譯系統:使 Zero-Shot 翻譯成為可能》 ,其中,Zero-Shot 翻譯是指在完成語言 A 到語言 B 的翻譯訓練之後,語言 A 到語言 C 的翻譯不需要再經過任何學習。它能自動把之前的學習成果轉化到翻譯任意一門語言,即便工程師們從來沒有進行過相關訓練。 透過 Zero-Shot,Google 解決了把神經機器翻譯系統擴展到全部語言的難題。有了它,一套系統就可以完成所有語言的互翻。從前兩種語言之間都需要多個翻譯系統的情況,從此成為了歷史。這套架構在翻譯其他語言時,不需要在底層 GNMT 系統做任何改變。只需在輸入語句的開頭插入一個輸出語種標記,就可以把結果翻譯為任意語言。 Google 在論文裡面展示了更多的分析結果。他們希望這些發現不但對機器學習和機器翻譯的研究人員們有用處,也能對語言學家和對單一系統怎麼處理多語言學習感興趣的人帶來價值。 美國時間 11 月 22 日,基於 Zero-Shot 的多語言神經機器學習系統正式登陸 Google 翻譯。它目前被應用於新增加的 16 個語言組中的 10 個,帶來更高的翻譯品質和簡化的系統架構。我們可以期待在不久的將來,該系統會逐步支持更多的 Google 翻譯語種。