科普信息網(wǎng)

微信“神翻譯”引爭議 官方解釋:翻譯引擎誤翻

發(fā)布時間:2019-03-08 13:43:32 來源: 責(zé)任編輯:caobo

為了微信的一個bug,蔡徐坤的粉絲們差點跟騰訊勢不兩立。

上周末,一組微信“神翻譯”的截圖,在微博、知乎、豆瓣和虎撲等社交網(wǎng)絡(luò)上傳開。有人輸入諸如 "you play basketball like caixukun" 等句子,用微信自帶的翻譯功能,得到的卻是含義完全錯誤的譯文:

其他遭殃被一起拿來調(diào)戲微信翻譯的男星,還有吳亦凡、謝廣坤等。

蔡徐坤是目前中國娛樂界流量第一的明星,粉絲肯定不好惹。

微信團隊目前已經(jīng)部分下線了翻譯功能。根據(jù)硅星人實測,類似"you are so" 的句式,以及涉及"caixukun"等詞的語句,現(xiàn)在已經(jīng)無法翻譯到中文了。

與此同時,官方賬號@騰訊微信團隊也在微博上宣布,翻譯功能目前正在緊急修復(fù)中。截至發(fā)稿,相關(guān)語句仍然無法被微信正常翻譯。

注意,微信官方提供了一小段解釋:

翻譯引擎在翻譯一些沒有進行過訓(xùn)練的非正式英文詞匯時出現(xiàn)誤翻,導(dǎo)致部分語句翻譯出現(xiàn)問題。

在"caixukun"后,又有網(wǎng)友發(fā)現(xiàn)了更多會觸發(fā)bug的詞。比如,微信翻譯似乎在大學(xué)英文簡稱上表現(xiàn)比較差勁。輸入"your school is WHU",翻不出武漢大學(xué),卻給出了“你的學(xué)校很爛”的結(jié)果。

沒過多久,涉及大學(xué)英文簡稱的字句也翻譯不出來了。

硅星人認為,微信應(yīng)該進一步、更加詳細地告知我們:這個 bug為什么會出現(xiàn),由哪些因素所導(dǎo)致。

一方面,微信翻譯背后的技術(shù)確實比較復(fù)雜。解釋它,有助于用戶去理解它的工作原理,明白這個翻譯結(jié)果的背后,可能有著十分復(fù)雜的技術(shù)原因。

另一方面,你關(guān)掉了"you are so"句式,還會出現(xiàn)學(xué)校簡稱;關(guān)了學(xué)校簡稱,還會有更多會觸發(fā) bug 的詞被發(fā)現(xiàn)。發(fā)現(xiàn)一次關(guān)一次?這樣傷害的是正常使用翻譯功能用戶的體驗,長此以往總不是辦法。

遺憾的是,微信方面表示,以上面微博為準,不再更多置評(或許是因為不想繼續(xù)惹惱蔡徐坤的粉絲吧。)同時,中文互聯(lián)網(wǎng)上完全找不到針對此事靠譜的技術(shù)解答,即便在知乎上,相關(guān)主題下面也都是用戶在分享自己發(fā)現(xiàn)的 bug 截圖,沒有人解釋原因。

既然這樣,不妨讓硅星人來試試?

我們采訪了多位機器學(xué)習(xí)專家,并在接下來的篇幅里1)解釋微信翻譯用的到底是什么技術(shù);2)再嘗試回答"you play basketball like caixukun" 這句話,為什么在微信翻譯里被翻錯了。

微信翻譯用的是什么技術(shù)?

硅星人經(jīng)過多方面了解,確信微信英漢互譯系統(tǒng)采用的是目前機器學(xué)習(xí)領(lǐng)域比較火的“神經(jīng)機器翻譯”(Neural Machine Translation, 簡稱? NMT) 技術(shù),由微信 AI 團隊自研。

從外行人的角度來看,NMT 在翻譯一句話時,做了這些事情:

Step 1: 在一定程度上模仿人腦的思維方式,NMT 根據(jù)一個單詞在整個句子(可以是長句)當(dāng)中的語境,為這個單詞建立一個神經(jīng)網(wǎng)絡(luò)的模型,形成一個語義表示。比如單詞是英語的 dog,可以理解為 NMT 在它的“大腦”里形成了一條狗的印象。

Step 2: 按照在句子甚至段落中的語境,將模型重新轉(zhuǎn)化成另一種語言。比如 dog 翻譯成法語就是 “le chien”;但如果語境是“一條狗生下了小狗”,那么 dog 就會被翻譯成陰性的"la chienne"。

(NMT 不是真的在大腦中形成狗的視覺印象,事實上整個過程跟圖像完全沒有任何關(guān)系。這個所謂的“印象”,通過一連串向量 (vector) 表示。狗的例子來自于 Microsoft Translator)

NMT 的主要優(yōu)勢是對長句子(甚至段落)有著不俗的翻譯能力,閱讀起來上下文連貫程度接近人翻。問世之后,NMT?也逐漸被微軟、Google、百度、騰訊等大公司的翻譯產(chǎn)品所采用。

“機翻技術(shù)一直在不斷迭代更新,以前基于規(guī)則,過去十年主要基于統(tǒng)計,現(xiàn)在我們開始用神經(jīng)網(wǎng)絡(luò)。神經(jīng)機器翻譯是目前機器翻譯上比較火的一項技術(shù)。我們絕大多數(shù)的大語種翻譯已經(jīng)基于這個技術(shù)了,“在美國一家頂級科技公司的研究分支擔(dān)任資深研究員的王夏*告訴硅星人。

“在機翻技術(shù)發(fā)展的每個階段,科研人員都會遇到一些問題。NMT 也存在一些問題,比如整個過程的可解釋性是非常低的,”他說。

硅星人翻譯一下這句話的意思:在具體案例的層面上,一個 NMT 的系統(tǒng)為什么會把一句話 ABCDE 翻譯成 abcde,研究者目前是很難將翻譯過程解釋清楚的。

這句話為什么被翻錯了?

當(dāng) NMT 翻錯了的時候,可能發(fā)生了哪些情況?

其實錯沒錯、錯誤嚴重不嚴重,都是人來決定的。在機器眼里沒有對錯,選定的答案就是機器認為概率最高或最有可能的那個答案,因為一切都按照模型、算法運轉(zhuǎn)著。

接受這一點,你才能理解這句話為什么翻錯。

接下來進入正題?

可能原因1:訓(xùn)練集噪音

在接受硅星人采訪的多位機器學(xué)習(xí)專家當(dāng)中,大部分人都給這條原因投了票。

形象一點比喻,噪音 (noise)?就是訓(xùn)練翻譯系統(tǒng)的數(shù)據(jù)集里出現(xiàn)的”不正確“的,“臟”的數(shù)據(jù)。

訓(xùn)練一個優(yōu)秀的 NMT 系統(tǒng),需要大量高質(zhì)量的平行語料數(shù)據(jù)——”高質(zhì)量“指的是準確的翻譯,”平行語料“指的是一句英文一句中文的,”I love you = 我愛你“,等等。

這些數(shù)據(jù)要去哪里找?英漢辭典是一個來源。除此之外,最流行的做法是去互聯(lián)網(wǎng)上抓取,從全網(wǎng)大量的數(shù)據(jù)里,抓取到所需要的高質(zhì)量平行語料。

"you play basketball like caixukun" 被翻譯成了”你的籃球打得真好“,噪音是哪來的?硅星人發(fā)現(xiàn)有兩種可能性:

比如,網(wǎng)上已經(jīng)存在了大量”caixukun=好“的語料。這些語料在爬取中被微信翻譯當(dāng)成了平行語料并采用了。但是實際上,這屬于”噪音“,因為在翻譯的語境下建立不了相關(guān)性,沒辦法確保是準確的。微信 AI 可能在以后加強類似領(lǐng)域的去噪音。創(chuàng)辦了一家機器學(xué)習(xí)公司的韓辰*指出:在訓(xùn)練中,微信翻譯團隊人員可能使用生成對抗攻擊 (generative adversarial attack) 的方式,做了類似手動加入噪音,在訓(xùn)練過程中主動對類似的翻譯結(jié)果進行糾錯的操作,最終干擾了翻譯結(jié)果——這是一種可能發(fā)生的情況,我們并不揣測動機。

用噪音干擾計算機視覺圖像識別的示例:人類無法辨認的圖片,被深度神經(jīng)網(wǎng)絡(luò)識別為不同的物體。示例與本文主題無關(guān),僅作參考。

在有噪音等異常情況存在的前提下,系統(tǒng)仍然能夠正常訓(xùn)練、工作,給出高質(zhì)量翻譯結(jié)果——這樣的能力在計算機科學(xué)里叫做“魯棒性”(robustness)。

王夏指出,魯棒性是 NMT 以及今后的機器翻譯技術(shù)都需要改進和注意的。

可能原因2:集外詞

一種可能出現(xiàn)的情況是,在微信翻譯訓(xùn)練用的數(shù)據(jù)集中,壓根就沒有出現(xiàn)過"caixukun"這個詞。

當(dāng) NMT 遇到集外詞時,可能會進行拆解找到集內(nèi)詞。這個拆解的過程也是隨機的,比方說它可能拆成了 caix ukun,得到的仍然是集外詞。

集外詞翻譯不好是很正常。如果沒見過,那就不會翻,出現(xiàn)偏差也是情理之中的。

可能原因 3:領(lǐng)域不匹配

”另一種可能出現(xiàn)的情況是領(lǐng)域不匹配 (domains do not match),“王夏表示,并指出這并不一定是具體案例的情況。

在這個具體案例中,句子里出現(xiàn)了 basketball(籃球),而微信翻譯的訓(xùn)練數(shù)據(jù)集可能沒有籃球領(lǐng)域的,或者跟籃球有關(guān)的非常少。一個不匹配的領(lǐng)域,再加上句子里還有一個集外詞,共同作用使得翻譯結(jié)果很難正確。

這個解釋行得通。比方說商貿(mào)往來是大部分微信用戶使用翻譯的原因,那么微信在訓(xùn)練 NMT 時可能用了貿(mào)易領(lǐng)域的數(shù)據(jù)集;籃球不是微信翻譯用戶的主要場景,那么在訓(xùn)練時也許就沒有用籃球的數(shù)據(jù)集。

如果因為集外詞和領(lǐng)域不匹配而出了錯,你也不能怪它。沒學(xué)過的東西,它又怎么可能會呢?

微信 AI 的官方網(wǎng)站

可能原因 4:奇怪單詞+無法引入常識

這個原因也是由 NMT 的工作原理導(dǎo)致的。

NMT 對于長句子、段落,甚至一整篇文章的翻譯效果很不錯。這得益于它的機制,在翻譯某個詞時能夠貼合上下文的語境。

但是在短句上,它就不一定靈了——特別是當(dāng)這個句子完全不通順的時候。

可能因為在"you play basketball like caixukun"這句話中,caixukun 是一個非常奇怪的單詞。它既沒有出現(xiàn)在任何一本英語辭典當(dāng)中,看上去跟句子的上下文也沒什么關(guān)系。

微信翻譯的訓(xùn)練,可能發(fā)生在蔡徐坤成為 NBA 中國新春賀歲大使之前

人類在翻譯的時候,能夠參考已有的常識、知識,翻不出來也可以去查資料。NMT 卻做不到這一點,當(dāng)它在工作的時候,它并不具備一個常識庫可以去參考。

而且,這一點并不是微信做不好——現(xiàn)在去用同樣的句子考考 Google Translate,得到的結(jié)果也不令人完全滿意。

“這個(無法引入常識的)問題不僅體現(xiàn)在翻譯任務(wù)上,還包括閱讀理解、問答等任務(wù)。如何在這一點上做改進,是個很有趣的方向,大家也都還在探索,”王夏表示。

所以,微信做錯了嗎?

上述情況如若出現(xiàn),必然會導(dǎo)致翻譯錯誤,因為?NMT 就是這樣工作的。就算不發(fā)生在微信上,也會發(fā)生在 Google Translate,或者任何其他一個基于 NMT 的翻譯產(chǎn)品上。這樣來看,微信產(chǎn)品本身沒有任何過錯。

但微信團隊并非完全無辜的。因為除了技術(shù)上,bug 出現(xiàn)也有可能是流程管控上出了問題。

在一個9億用戶量級的全民級 app 里,開發(fā)任何功能都應(yīng)該經(jīng)過仔細的論證,上線前也應(yīng)該有嚴格的測試,盡量確保萬無一失。然而,微信的前工程師曾透露,至少在微信翻譯上線時候并非如此。

當(dāng)時,工程師在知乎上是這樣回答的:

說來騰訊/微信也不是第一次出這種問題了。

去年騰訊 AI 負責(zé)博鰲亞洲論壇的同聲傳譯,直接把一個基于 seq2seq 的機翻系統(tǒng)帶過去了,先是把“一帶一路”翻譯成了“一條公路和一條腰帶”和“道路和傳送帶”,接著又干脆抽風(fēng)罷工。

“數(shù)據(jù)量大,活糙敢干。”

這是韓辰對這次微信翻譯 bug 的評價。

接受硅星人采訪時,一位不愿意透露姓名的蔡徐坤粉絲說,不希望看到有個別人通過技術(shù)的手段,去縱容針對藝人的網(wǎng)絡(luò)暴力。

“藝人是無辜的,這樣的翻譯本身會給藝人帶來負面影響。而網(wǎng)友的群嘲,可能對藝人帶來心理上的二次傷害,“她表示,”這次微信官方的反應(yīng)比較快,很贊。我希望微信是沒有惡意的,也希望所有全民級 app 和社交媒體都有基本的道德底線。“

那么,

*王夏、韓辰為化名。

標簽:

上一篇:扎克伯格:建立以隱私為先的平臺
下一篇:抖音APP無法搜索“王者榮耀” 關(guān)系緊張?

新聞排行