MSCBSC 移動(dòng)通信論壇
搜索
登錄注冊
網(wǎng)絡(luò)優(yōu)化工程師招聘專欄 4G/LTE通信工程師最新職位列表 通信實(shí)習(xí)生/應(yīng)屆生招聘職位

  • 閱讀:1194
  • 回復(fù):0
谷歌翻譯里程碑:把人工智能翻譯推廣到多語言更容易了
mao_mao
論壇副管
鎵嬫満鍙風(fēng)爜宸查獙璇? style=


 發(fā)短消息    關(guān)注Ta 

C友·鐵桿勛章   管理·勤奮勛章   C友·進(jìn)步勛章   管理·優(yōu)秀勛章   C友·貢獻(xiàn)勛章   “灌水之王”   紀(jì)念勛章·七周年   管理·標(biāo)兵勛章   活動(dòng)·積極勛章   財(cái)富勛章·財(cái)運(yùn)連連   財(cái)富勛章·大富豪   財(cái)富勛章·小財(cái)主   專家·終級勛章   財(cái)富勛章·神秘富豪   C友·登錄達(dá)人   紀(jì)念勛章·五周年   財(cái)富勛章·富可敵國   財(cái)富勛章·財(cái)神   財(cái)富勛章·富甲一方   財(cái)富勛章·鉆石王老五   活動(dòng)·第二屆通信技術(shù)杯   紀(jì)念勛章·六周年   活動(dòng)·攝影達(dá)人   紀(jì)念勛章·八周年   紀(jì)念勛章·九周年   紀(jì)念勛章·十周年   C友·技術(shù)大神  
積分 428896
帖子 85070
威望 5335291 個(gè)
禮品券 5423 個(gè)
專家指數(shù) 3546
注冊 2009-4-24
專業(yè)方向  移動(dòng)通信
回答問題數(shù) 0
回答被采納數(shù) 0
回答采納率 0%
 
發(fā)表于 2016-11-23 15:40:04  只看樓主 

  在過去的十年里,谷歌翻譯(Google Translate)從最初僅支持幾種語言發(fā)展到今天的 103 種,每天翻譯的字詞超過 1400 億個(gè)。為了做到這一點(diǎn),在任意兩種語言之間,谷歌翻譯都要運(yùn)行多個(gè)翻譯系統(tǒng),這帶來巨大的計(jì)算成本。如今,許多領(lǐng)域都正在被神經(jīng)網(wǎng)絡(luò)技術(shù)顛覆。谷歌確信他們可以利用神經(jīng)網(wǎng)絡(luò)進(jìn)一步提升翻譯質(zhì)量。這要求谷歌重新思考谷歌翻譯的算法架構(gòu)。

  今年九月,谷歌發(fā)表聲明,基于神經(jīng)機(jī)器翻譯的谷歌翻譯全新上線。(GNMT,Google Neural Machine Translation)。神經(jīng)機(jī)器翻譯是端到端的學(xué)習(xí)架構(gòu),它能從數(shù)百萬的實(shí)例中學(xué)習(xí),提供大幅提升的翻譯效果。雖然功能得到了改善,但是讓谷歌翻譯把當(dāng)下支持的 103 種語言全部采用神經(jīng)機(jī)器翻譯技術(shù),卻是一項(xiàng)巨大的挑戰(zhàn)。

  一周前,谷歌的工程師門發(fā)表了一篇論文 “谷歌的多語言神經(jīng)機(jī)器翻譯系統(tǒng):使 Zero-Shot 翻譯成為可能”(“Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation”),雷鋒網(wǎng)在論文發(fā)表后第一時(shí)間做了覆蓋。其中,Zero-Shot 翻譯是指在完成語言 A 到語言 B 的翻譯訓(xùn)練之后,語言 A 到語言 C 的翻譯不需要再經(jīng)過任何學(xué)習(xí)。 它能自動(dòng)把之前的學(xué)習(xí)成果轉(zhuǎn)化到翻譯任意一門語言,即便工程師們從來沒有進(jìn)行過相關(guān)訓(xùn)練。

  通過 Zero-Shot,谷歌解決了把神經(jīng)機(jī)器翻譯系統(tǒng)擴(kuò)展到全部語言的難題。有了它,一套系統(tǒng)就可以完成所有語言的互翻。從前兩種語言之間都需要多個(gè)翻譯系統(tǒng)的情況,從此成為了歷史。這套架構(gòu)在翻譯其他語言時(shí),不需要在底層 GNMT 系統(tǒng)做任何改變。只需在輸入語句的開頭插入一個(gè)輸出語種標(biāo)記,就可以把結(jié)果翻譯為任意語言。

  下面這幅動(dòng)圖對該 Zero-Shot 系統(tǒng)的運(yùn)作做了示意。

  假設(shè)谷歌訓(xùn)練該系統(tǒng)做日語英語、韓語英語的互譯,圖中用藍(lán)色實(shí)線來代表。 GNMT 系統(tǒng)就可以分享這四組翻譯(日英,英日,韓英,英韓)的參數(shù)。這允許它把任意一組語言的翻譯經(jīng)驗(yàn)轉(zhuǎn)到其他語言上去。學(xué)習(xí)成果轉(zhuǎn)移和多語言翻譯的要求,迫使該系統(tǒng)更好地使用建模的能力。

  這啟發(fā)了工程師們設(shè)想:我們能否讓系統(tǒng)翻譯一組它從來沒有翻譯過的語言?這可以用韓語日語互譯的例子來說明。雖然該系統(tǒng)從未處理過韓日互譯,但它利用之前的韓英、日英翻譯學(xué)習(xí)成果,能進(jìn)行水平不錯(cuò)的韓日互譯。谷歌把這個(gè)過程稱為 “zero-shot” 翻譯,圖中用黃虛線表示。谷歌宣稱,這是世界上首例應(yīng)用在機(jī)器翻譯上的學(xué)習(xí)成果轉(zhuǎn)移。

  Zero-shot 翻譯的成功帶來了另外一個(gè)重要問題:這個(gè)系統(tǒng)是否在學(xué)習(xí)語言的通用表達(dá)(不管是翻譯成什么語種,相同含義的語句都被系統(tǒng)使用相似的表達(dá)方式)?——類似于“國際語”或者中介語言?工程師們使用了 3D 圖像展示系統(tǒng)的內(nèi)部網(wǎng)絡(luò)數(shù)據(jù),以了解它在處理日、韓、英的任意互譯組合時(shí)是如何運(yùn)作的。

  上方圖片a部分(左)展示了這些翻譯的幾何結(jié)構(gòu)。意義一致的語句用顏色相同的點(diǎn)代表。比方說,英譯韓和日譯英的兩句話如果意思一致,就會(huì)是圖上顏色相同的兩個(gè)點(diǎn)。通過這種方式,我們可以很容易地區(qū)分不同顏色(含義)的點(diǎn)。b 部分放大了紅色區(qū)的點(diǎn),c 部分則對源語言進(jìn)行區(qū)分。在同一組顏色的點(diǎn)里,我們看到含義相同但從屬不同語種的句子。這意味著該系統(tǒng)必然對句子的語義進(jìn)行了編碼,而不是記憶一個(gè)短語到另一個(gè)短語的翻譯。谷歌的工程師把這看作是系統(tǒng)中存在中介語言的標(biāo)志。

  谷歌在論文里面展示了更多的分析結(jié)果。他們希望這些發(fā)現(xiàn)不但對機(jī)器學(xué)習(xí)和機(jī)器翻譯的研究人員們有用處,也能對語言學(xué)家和對單一系統(tǒng)怎么處理多語言學(xué)習(xí)感興趣的人有價(jià)值。

  今日 (美國時(shí)間 11 月 22 日),基于 Zero-Shot 的多語言神經(jīng)機(jī)器學(xué)習(xí)系統(tǒng)正式登陸谷歌翻譯。它目前被應(yīng)用于新增加的 16 個(gè)語言組中的 10個(gè),帶來更高的翻譯質(zhì)量和簡化的系統(tǒng)架構(gòu)。我們可以期待在不久的將來,該系統(tǒng)會(huì)逐步支持更多的谷歌翻譯語種。(三川)


掃碼關(guān)注5G通信官方公眾號,免費(fèi)領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國移動(dòng):5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國移動(dòng):6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國電信5G NTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國移動(dòng)算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《 R16 23501-g60 5G的系統(tǒng)架構(gòu)1
  • 對本帖內(nèi)容的看法? 我要點(diǎn)評

     
    [充值威望,立即自動(dòng)到帳] [VIP貴賓權(quán)限+威望套餐] 另有大量優(yōu)惠贈(zèng)送活動(dòng),請光臨充值中心
    充值擁有大量的威望和最高的下載權(quán)限,下載站內(nèi)資料無憂

    快速回復(fù)主題    
    標(biāo)題
    內(nèi)容
     上傳資料請點(diǎn)左側(cè)【添加附件】

    當(dāng)前時(shí)區(qū) GMT+8, 現(xiàn)在時(shí)間是 2025-01-23 03:23:15
    渝ICP備11001752號  Copyright @ 2006-2016 mscbsc.com  本站統(tǒng)一服務(wù)郵箱:mscbsc@163.com

    Processed in 0.250369 second(s), 13 queries , Gzip enabled
    TOP
    清除 Cookies - 聯(lián)系我們 - 移動(dòng)通信網(wǎng) - 移動(dòng)通信論壇 - 通信招聘網(wǎng) - Archiver