假如上帝真的存在,,他最近可能有些心事。
在猶太人的古老傳說中,,人類曾試圖修建一座通向天堂的“巴比倫塔”,。為阻止這個瘋狂的計劃,上帝想出一個絕招——賦予不同族群不同語言,讓人們難以溝通,。
最終,,語言的隔閡讓“巴比倫塔”計劃擱淺。直到今天,,即便信息和交通技術把世界變成了“地球村”,,語系之間的交流,依然只能依靠對彼此語言的專業(yè)學習,。
但是現(xiàn)在,,人工智能在語言翻譯領域的突飛猛進,又讓人們重新看到了“巴比倫塔”竣工的希望,。
九成六級考生不如“它”
這段時間,,機器翻譯技術可謂高調(diào)。
微軟剛剛在12月13日放出“大招”——推出實時語音翻譯應用MicrosoftTranslator,,支持多人,、多語言、跨設備交流,。國內(nèi)企業(yè)并未示弱,。上個月底科大訊飛在其年度發(fā)布會上也展示了類似的技術,可以將中文會議演講實時翻譯成英,、日,、韓、維吾爾等多種語言顯示在大屏幕上,。發(fā)布會上推出的語音翻譯機“曉譯”還瞄準了更廣闊的應用場景——出國游玩,。
平時不顯山不露水的在線翻譯應用也已華麗升級。今年9月,,谷歌翻譯啟用了谷歌神經(jīng)機器翻譯(GNMT)系統(tǒng),,在人工智能界引起騷動。而追溯至去年5月,,則是百度翻譯發(fā)布基于神經(jīng)網(wǎng)絡的機器翻譯(NMT)系統(tǒng)的時間,。
機器翻譯的高調(diào),依賴于人工智能技術在這一領域的顯著進展,。
百度主任架構師何中軍介紹,,自上世紀40年代起,基于規(guī)則,、實例以及統(tǒng)計的機器翻譯方法漸次登場,。2014年起,人工神經(jīng)網(wǎng)絡開始在機器翻譯領域引領風騷,。
“最終的翻譯效果就是更加流暢了,。”科大訊飛機器翻譯研究主管劉俊華告訴科技日報記者,科大訊飛所展示的會議實時翻譯系統(tǒng)和“曉譯”翻譯機便應用了基于神經(jīng)網(wǎng)絡的機器翻譯方法。
若問人工智能的到來把機器翻譯“提”到了什么水平,,何中軍舉出一道大學英語六級翻譯真題,。這道題需要把一句中文翻譯成英文,而百度翻譯應用給出的答案,,從詞匯和語法來看都挑不出什么毛病,。
無獨有偶,科大訊飛在推介其“曉譯”翻譯機時也曾表示它可以達到大學英語六級水平,。“大學英語六級的翻譯題目滿分為15分,,目前機器翻譯答題可以達到11分。”劉俊華解釋說,,這意味著機器翻譯技術大概可以超過90%的英語六級考生,。
“煉丹爐”取代了“流水線”
就在兩三年前,“流暢”和“自然”還是讓機器翻譯研究人員感到頭痛的字眼,。那時,,基于統(tǒng)計的機器翻譯方法是大熱門。
短短兩年多時間內(nèi),,基于神經(jīng)網(wǎng)絡的機器翻譯系統(tǒng),,就在多個公開測試集上超越了基于統(tǒng)計的機器翻譯系統(tǒng)。
單從翻譯步驟來看,,劉俊華的體會是,,基于神經(jīng)網(wǎng)絡的機器翻譯比其前任“簡潔了非常多”。比如,,要把一句中文翻譯成英文,,基于統(tǒng)計的機器翻譯方法首先要對句子的詞匯、短語進行切分,,然后分別對每個單元進行翻譯,,再把翻譯結果組合起來,最后還要進行調(diào)序等等,。每個步驟都對應著十分復雜的模型,。
形象地說,如果基于統(tǒng)計的方法是一條長長的流水線,,基于神經(jīng)網(wǎng)絡之后只需一個“煉丹爐”。
新方法被稱為“從端到端”的翻譯,。“基本的神經(jīng)機器翻譯模型包含兩個部分,,編碼器和解碼器。”何中軍解釋說,,編碼器將源語言句子表示為一個向量,,解碼器根據(jù)此向量逐詞產(chǎn)生目標譯文。也就是說,一個句子經(jīng)過一次“加工”就能夠直接輸出目標語言,。
不僅翻譯效率得到了極大提高,,結果也更加流暢自然。這是因為,,神經(jīng)機器翻譯方法是對整個句子進行編碼處理,,可以照顧到詞匯的上下文信息,因此翻譯出的答案不像統(tǒng)計機器翻譯方法那樣生硬,。
正是“流暢”和“自然”將機器翻譯技術推向更加實際的應用,。而且在與其他人工智能技術相結合后,機器翻譯可以真正觸到人們語言不通的“痛點”,,從而深度切入商務,、旅行、學習等多個場景,。
例如,,無論是微軟的MicrosoftTranslator,還是科大訊飛的會議實時翻譯系統(tǒng)以及“曉譯”翻譯機,,都結合了語音識別技術來為語言交談架起橋梁,。而融入了光學字符識別(OCR)技術的百度翻譯APP,則可以在國外購物或旅游的場景下,,幫助人們翻譯看不懂的英文路牌,、菜單和說明書等。
等待打破“嘆息”之墻
可以看到,,人工智能正在一點一點“捅破”人與人之間的語言隔閡,。有網(wǎng)友戲言,或許不久后的一天,,揣著裝了高效語言翻譯APP的手機,,鄰居大媽也能來一場說走就走的世界旅行。所有國家的學生將徹底掙脫外語課的“黑暗統(tǒng)治”,。
不過,,要把重建“巴比倫塔”的美夢寄托給當前、乃至未來一段時間內(nèi)的機器翻譯技術,,還是有點不太現(xiàn)實,。
“基于神經(jīng)網(wǎng)絡的翻譯技術雖然帶來了機器翻譯質(zhì)量的較大提高,但是本身還存在諸多技術挑戰(zhàn),。”何中軍說,。他把神經(jīng)網(wǎng)絡比作一個“黑盒子”,中文句子進去,,英文句子出來,,但是這個“黑盒子”為何要這么翻譯,,技術人員還難以對其進行合理的解釋。
更重要的是,,復雜,、多變,我們自己都掌握不住的“人性”,,仍然是所有人工智能發(fā)展的嘆息之墻,。
雖然對單個句子的翻譯可以實現(xiàn)流暢和自然,但是在整個篇章的上下文理解方面,,機器翻譯并不給力,。一旦涉及歇后語、詩句,、雙關語甚至口語化的表達,,機器翻譯更會毫不掩飾地掉鏈子。而對于如何將知識融合到機器翻譯系統(tǒng)中,,讓機器真正“理解”人類的語言,,目前還沒有較好的解決方案。
從另一個角度來看,,無論是基于統(tǒng)計的機器翻譯,,還是基于神經(jīng)網(wǎng)絡的機器翻譯,都以龐大的語料庫為基礎,。然而劉俊華告訴科技日報記者,,雖然中、英等主要語種的語料相對充足,,一些小語種的翻譯,,比如科大訊飛目前關注的國內(nèi)少數(shù)民族語言的翻譯,依然會面臨語料短缺的問題,。
“目前的成果可以證明,,神經(jīng)網(wǎng)絡在語言翻譯領域的應用效果不錯,但它的潛力還沒有完全發(fā)揮出來,。”劉俊華給出的方案是,,可以考慮將其他技術路線與基于神經(jīng)網(wǎng)絡的機器翻譯方法融合起來,使其各施所長,,實現(xiàn)更好的翻譯效果,。
人工智能會不會取代專業(yè)的同聲傳譯?這個簡單的問題竟讓機器翻譯領域的專家們感到為難,。何中軍用“任重道遠”作為回答,,而在劉俊華看來,對照傳統(tǒng)的翻譯規(guī)則——“信,、達,、雅”,人工智能目前僅能實現(xiàn)“信”,,離后二者尚有距離,。
這么說來,上帝或可放寬心:就算人工智能要幫助人類重建“巴比倫塔”,,也不過剛剛撿起幾塊磚瓦而已,。
只是,未來呢,?