《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動(dòng)態(tài) > 專訪 | 監(jiān)管機(jī)器翻譯質(zhì)量?且看阿里如何搭建翻譯質(zhì)量評(píng)估模型

專訪 | 監(jiān)管機(jī)器翻譯質(zhì)量?且看阿里如何搭建翻譯質(zhì)量評(píng)估模型

2018-08-03

隨著機(jī)器翻譯在真實(shí)場(chǎng)景中的應(yīng)用越來越多,翻譯質(zhì)量評(píng)估模型也受到很大的關(guān)注。近日,阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室的陳博興博士向機(jī)器之心介紹了機(jī)器翻譯質(zhì)量評(píng)估競賽與模型,他們憑借著 Feature Extractor-Quality Estimator 框架與完全注意力機(jī)制等方法在國際機(jī)器翻譯大會(huì) WMT 組織的質(zhì)量評(píng)估競賽上取得了優(yōu)異的成績。


阿里機(jī)器翻譯團(tuán)隊(duì)在本次比賽中,參加了英語到德語和德語到英語兩個(gè)語向的句子級(jí)別和詞級(jí)別的七項(xiàng)質(zhì)量評(píng)估任務(wù),收獲了六項(xiàng)世界冠軍。其中,德語到英語的統(tǒng)計(jì)機(jī)器翻譯評(píng)估任務(wù)中(German-English SMT),句子級(jí)別和詞級(jí)別的預(yù)測(cè)任務(wù)分別取得第一名;英語到德語的統(tǒng)計(jì)機(jī)器翻譯評(píng)估任務(wù)中 (English-German SMT),句子級(jí)別取得第一名,詞級(jí)別的詞預(yù)測(cè)和漏詞預(yù)測(cè)分別取得第一名。同時(shí),英語到德語的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯評(píng)估任務(wù)中 (English-German NMT),詞級(jí)別的詞預(yù)測(cè)取得第一名。


對(duì)于翻譯質(zhì)量評(píng)測(cè)方法來說,可能讀者最熟悉的就是 BLEU 值,它的核心思想即機(jī)器翻譯的譯文越接近人類專業(yè)譯文,那么翻譯的效果就越好。所以從本質(zhì)上來說,BLEU 值僅僅只是在計(jì)算機(jī)翻譯文與參考譯文之間的相似性。此外,雖然 BLEU 值計(jì)算非常迅速,但它僅考慮詞語層級(jí)的統(tǒng)計(jì)相似性,常忽略了語義和語法等特征。且其它如常用詞、譯文長度、同義詞等很多情況都會(huì)影響到 BLEU 值的評(píng)判,因此它其實(shí)只能評(píng)估機(jī)器翻譯模型與參考譯文之間的大致相似度。


計(jì)算 BLEU 值最重要的是提供參考譯文,參考譯文質(zhì)量越高,對(duì)于同一句原文的參考譯文越多,翻譯模型的度量就越準(zhǔn)確。但很多情況下高質(zhì)量參考譯文很難獲得,或者成本非常高,而且更多的實(shí)際運(yùn)用場(chǎng)景中,用戶輸入的原文是無法及時(shí)提供參考譯文的,這種情況下就需要一種沒有參考譯文也能評(píng)估翻譯效果的方法。


Machine Translation Quality Estimation 就是這樣一個(gè)由 WMT 發(fā)起的機(jī)器翻譯質(zhì)量評(píng)估比賽,它要求在不提供參考譯文的情況下,根據(jù)原文和機(jī)器翻譯譯文評(píng)估譯文質(zhì)量的好壞。


除了競賽,不需要參考譯文的評(píng)估方法在實(shí)際中有非常廣泛的應(yīng)用,陳博興表示這種自動(dòng)評(píng)估方法可以評(píng)估譯文的質(zhì)量,用于判斷譯文是否可以直接發(fā)表,是否可以讓讀者理解,是否需要后續(xù)人工編輯,并輔助譯員翻譯。如果質(zhì)量太差,那么這一句話就需要重新翻譯且不適合做人工編輯,如果只需要少量改動(dòng),那就比較適合做人工編輯。甚至對(duì)于詞語級(jí)別的譯文評(píng)估方法,它能告訴我們到底哪一個(gè)詞需要改進(jìn)。此外,限制質(zhì)量較差的機(jī)器翻譯的譯文輸出、評(píng)估機(jī)器翻譯模型效果等都需要這種不需要參考譯文的評(píng)估方法。


翻譯質(zhì)量評(píng)估


翻譯質(zhì)量評(píng)估任務(wù)一般可分為兩種,即句子級(jí)的評(píng)估和單詞級(jí)的評(píng)估,阿里機(jī)器翻譯團(tuán)隊(duì)這次參與的競賽同樣也分為這兩種任務(wù)。其中句子級(jí)的質(zhì)量評(píng)估需要使用回歸模型給譯文句子的整體水平打分,而單詞級(jí)的任務(wù)需要分類模型標(biāo)注每一個(gè)詞到底翻譯得好不好。完成這兩種評(píng)估任務(wù)的方法也有許多,但總體上都是通過抽取原文與譯文的特征,并計(jì)算它們之間的匹配程度。


以前常見的研究是使用手動(dòng)抽取的質(zhì)量評(píng)估特征,并饋送到回歸或分類模型以得出譯文的分?jǐn)?shù)或類別。這些質(zhì)量評(píng)估一般包括長度特征、語言特征和主題模型等特征,它們可能還會(huì)通過主成分分析和高斯過程等方法進(jìn)行選擇。


而自深度學(xué)習(xí)變得流行以來,很多研究者嘗試使用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)抽取質(zhì)量評(píng)估特征并完成評(píng)分。Kreutzer 等人首先在 2015 年提出基于窗口的 FNN 架構(gòu),它以窗口的方式抽取語義特征。在基于窗口的方法中,給定目標(biāo)詞,我們從原語和目標(biāo)語的對(duì)應(yīng)位置中獲取雙語窗口,其中目標(biāo)語窗口的中心詞就是該目標(biāo)詞,而原語窗口的中心詞即目標(biāo)詞對(duì)應(yīng)的原語詞。所有雙語窗口下的詞將會(huì)以 one-hot 編碼的方式饋送到輸入層,并進(jìn)一步計(jì)算出當(dāng)前窗口的雙語匹配程度。


Patel 等人隨后在 2016 年提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)的質(zhì)量評(píng)估模型,在該模型中,他們將單詞級(jí)的質(zhì)量評(píng)估模型視為序列標(biāo)注任務(wù),且同樣采用了基于雙語上下文窗口的方法。其中上下文窗口的所有詞需要作為輸入,并借助循環(huán)神經(jīng)網(wǎng)絡(luò)建模它們之間的依賴性關(guān)系,并最后輸出標(biāo)注序列以判斷每個(gè)單詞是不是翻譯正確。


隨后很多研究者開始使用卷積神經(jīng)網(wǎng)絡(luò)、雙向 LSTM 網(wǎng)絡(luò)和注意力機(jī)制等深度學(xué)習(xí)方法,Martins 等人在 2017 年結(jié)合神經(jīng)網(wǎng)絡(luò)模型與富特征線性模型在質(zhì)量評(píng)估模型上獲得了非常好的效果。但阿里采用的模型并不基于上下文窗口,他們參考了最近提出的自注意力機(jī)制和 Transfomer 機(jī)器翻譯的模型框架,在前人研究的基礎(chǔ)上提出了一種名為『Bilingual Expert』model (『雙語專家』模型) 作為特征抽取器,聯(lián)合基于神經(jīng)網(wǎng)絡(luò)的譯文質(zhì)量評(píng)估框架。后面我們將從這兩方面重點(diǎn)關(guān)注這一框架,并探討阿里達(dá)摩院對(duì)它們的優(yōu)化。


特征抽取模型


特征抽取即從原文與譯文語句中抽取足夠的信息或特征,并用來進(jìn)一步計(jì)算譯文效果到底好不好。因此特征抽取是翻譯評(píng)估模型的核心,特征的好壞直接影響了翻譯評(píng)估的準(zhǔn)確度。不過在理解特征抽取以前,我們先要了解整個(gè)『Bilingual Expert』based Feature Extractor + Quality Estimator 框架,這樣才能知道為什么能通過神經(jīng)網(wǎng)絡(luò)抽取原文和譯文的語言特征。


『Bilingual Expert』based Feature Extractor + Quality Estimator 由特征抽取模型和譯文評(píng)估模型組成,因?yàn)檫@兩個(gè)模型解決的是兩個(gè)任務(wù),所以它們能使用兩種數(shù)據(jù)集進(jìn)行訓(xùn)練。特征抽取模型在輸入原句序列和目標(biāo)句序列的條件下抽取質(zhì)量評(píng)估特征,這一部分的訓(xùn)練需要使用一般的雙語平行數(shù)據(jù)集。而特征抽取模型抽取的特征可繼續(xù)用于評(píng)估翻譯效果,這一部分需要使用質(zhì)量評(píng)估(QE)數(shù)據(jù)集,該數(shù)據(jù)集不僅包括原句與譯文句,同時(shí)還包括了標(biāo)注的翻譯質(zhì)量。

 

微信圖片_20180803163026.jpg

阿里達(dá)摩院在這次競賽中采用的結(jié)構(gòu),特征抽取模型與評(píng)估模型使用 Transformer 與雙向 LSTM 的框架進(jìn)行修正。


對(duì)于特征抽取,『Bilingual Expert』(圖上右上框)模型構(gòu)建了一種條件語言模型。簡單而言,在給定原語句子所有詞和目標(biāo)語句除當(dāng)前詞以外的上下文,模型希望能使用這些詞的信息預(yù)測(cè)出當(dāng)前詞。這一過程潛在的假設(shè)即條件語言模型與質(zhì)量評(píng)估模型高度相關(guān),它能傳遞有用的信息來執(zhí)行質(zhì)量評(píng)估任務(wù)。陳博興表示,我們可以直觀地理解為,如果譯文的質(zhì)量非常高,那么這種基于條件語言模型的詞預(yù)測(cè)模型能基于原句子和目標(biāo)句子的上下文準(zhǔn)確預(yù)測(cè)出當(dāng)前詞。相反如果譯文質(zhì)量不高,那么模型很難基于上下文準(zhǔn)確地預(yù)測(cè)出當(dāng)前詞。


給定原語句子和目標(biāo)語句子的上下文,并預(yù)測(cè)目標(biāo)語句子的當(dāng)前詞可以表述為如下方程式,阿里機(jī)器翻譯團(tuán)隊(duì)使用了在《Attention is all you need》中提出的 Transformer 建模這一方程。

微信圖片_20180803163112.jpg

之所以將傳統(tǒng)的雙向 LSTM 模型替換為最近比較流行的 Transformer,陳博興表示:「LSTM 是以遞歸方式進(jìn)行的,適合序列建模任務(wù),需要逐步遞歸才能獲取全局信息。這就導(dǎo)致了計(jì)算過程很難并行,計(jì)算效率較低。因此我們采用了完全基于注意力機(jī)制的結(jié)構(gòu)來處理序列模型的相關(guān)問題,這樣不僅能挖掘序列內(nèi)部的隱藏關(guān)系,同時(shí)還能提高并行效率?!?/p>


盡管使用 Transformer 構(gòu)建詞預(yù)測(cè)模型有更多的優(yōu)勢(shì),但從 LSTM 出發(fā)能更好地理解詞預(yù)測(cè)模型的過程。下圖所示為基于 LSTM 的詞預(yù)測(cè)模型,它期望能準(zhǔn)確預(yù)測(cè)目標(biāo)語句子中的第 j 個(gè)詞。


如下對(duì)于原語句子 x,模型首先將每一個(gè)詞都表征為詞嵌入向量,然后再饋送到正向和反向兩條 LSTM,每一個(gè)時(shí)間步需要同時(shí)結(jié)合正向和反向 LSTM 的隱藏狀態(tài)并作為最終的輸出。對(duì)于目標(biāo)語句子 y,在第 j 個(gè)詞之前的序列使用正向 LSTM 建模,而第 j 個(gè)詞之后的序列使用反向的 LSTM 建模。最后在預(yù)測(cè)第 j 個(gè)詞時(shí),需要使用原語句子 x 的上下文向量 c_j(由注意力機(jī)制得出)、目標(biāo)語前一個(gè)詞及前面序列的語義信息、目標(biāo)語后一個(gè)詞及后面序列的語義信息。

微信圖片_20180803163144.jpg


阿里機(jī)器翻譯團(tuán)隊(duì)采用 Transformer 的架構(gòu)進(jìn)行建模,該架構(gòu)不僅在原文和譯文端之間進(jìn)行注意力機(jī)制的計(jì)算,同時(shí)原文和譯文內(nèi)部也引入自注意力的機(jī)制,使得兩端深層的語義信息能夠很好得被學(xué)習(xí)到。除此以外,『Multi-Head』注意力機(jī)制的結(jié)構(gòu)能夠使網(wǎng)絡(luò)中每一層對(duì)不同位置的計(jì)算是并行的,大大提高了學(xué)習(xí)效率。陳博興表示,在對(duì)原文進(jìn)行編碼的過程中,編碼器由相同的兩個(gè)模塊構(gòu)成,每一個(gè)模塊都有兩個(gè)子層級(jí)。其中第一個(gè)子層級(jí)是 Multi-Head 自注意機(jī)制,第二個(gè)子層級(jí)采用了全連接網(wǎng)絡(luò),其主要作用在于注意子層級(jí)的特征。同時(shí),每一個(gè)子層級(jí)都會(huì)添加殘差連接和層級(jí)歸一化。


在對(duì)目標(biāo)端解碼的過程中,阿里機(jī)器翻譯團(tuán)隊(duì)創(chuàng)新地進(jìn)行了基于 Multi-head Attention 的雙向解碼。陳博興表示,每個(gè)方向的解碼器也由相同的兩個(gè)模塊堆疊而成。與編碼器區(qū)別的是,每一個(gè)解碼器模塊都有三個(gè)子層組成。第一個(gè)和第三個(gè)子層分別與編碼器的 Multi-Head 自注意力層和全連接層相同,而第二個(gè)子層采用了 Multi-Head Attention 機(jī)制,使用編碼器的輸出作為 Key 和 Value,使用解碼模塊第一個(gè)子層的輸出作為 Query。與編碼器類似的是,每一個(gè)子層同樣會(huì)加上殘差連接與層級(jí)歸一化模塊。該思想可以理解構(gòu)造了一個(gè)雙向的 Transformer,而其真正作用不是翻譯系統(tǒng)中的解碼器,而更像一個(gè)編碼器或者特征表示器。

微信圖片_20180803163219.jpg

上圖所示為 Transformer 原論文中介紹的網(wǎng)絡(luò)架構(gòu),阿里機(jī)器翻譯團(tuán)隊(duì)將其采用為『雙語專家』條件語言模型的基礎(chǔ)網(wǎng)絡(luò)。Transformer 編碼器的 Inputs 為原語句子序列 x,解碼器輸入的 Outputs 為目標(biāo)語正向和逆向兩個(gè)序列。此外,解碼器中 Softmax 輸出的概率表示目標(biāo)端當(dāng)前詞預(yù)測(cè)。在阿里采用的架構(gòu)中,編碼器和解碼器的層數(shù)都等于 2,即圖中的 N=2。


每一次在預(yù)測(cè)目標(biāo)語的當(dāng)前詞時(shí),Transformer 需要使用正向與反向兩部分信息。陳博興表示若當(dāng)前預(yù)測(cè)目標(biāo)語的第 j 個(gè)詞,對(duì)于正向序列而言,模型需要使用目標(biāo)端第 j-1 個(gè)詞的前向深層語義特征向量和第 j-1 個(gè)詞的詞向量。而對(duì)于反向序列而言,模型需要使用目標(biāo)端第 j+1 個(gè)詞的反向深層語義特征向量與第 j+1 個(gè)詞的詞向量。


總體而言,在阿里的模型中,利用預(yù)先訓(xùn)練的專家模型,先抽取基于模型隱層的一些 high level 表示信息,以及該詞的前后詞的詞向量,最后再通過一個(gè)全連接層做一次線性變換。除此之外,阿里還構(gòu)造了 mis-matching features。如下圖所示,當(dāng)某個(gè)翻譯結(jié)果錯(cuò)誤單詞不多的時(shí)候,預(yù)訓(xùn)練模型會(huì)給出正確的單詞預(yù)測(cè)分布,這和翻譯結(jié)果激活的單詞會(huì)存在一個(gè) gap。這個(gè) gap 是一個(gè)非常重要的特征,阿里機(jī)器翻譯團(tuán)隊(duì)的實(shí)驗(yàn)顯示就算只用這個(gè)特征去做下一步預(yù)測(cè),也可以得到很好的結(jié)果。詳細(xì)內(nèi)容可以參考阿里機(jī)器翻譯團(tuán)隊(duì)的論文:“Bilingual Expert” Can Find Translation Errors [1]。

 

微信圖片_20180803163251.jpg


其實(shí)阿里機(jī)器翻譯團(tuán)隊(duì)采用的這種雙向解碼機(jī)制有非常優(yōu)秀的屬性,它相當(dāng)于遷移了一部分語言的知識(shí)。最近很多研究者都提倡以語言模型作為預(yù)訓(xùn)練基礎(chǔ)模型將語言知識(shí)遷移到不同的 NLP 任務(wù),阿里采用的這個(gè)結(jié)構(gòu)正好體現(xiàn)了這種想法。在預(yù)測(cè)第 j 個(gè)詞時(shí),j+1 和 j-1 兩個(gè)深層語義特征向量都相當(dāng)于使用預(yù)訓(xùn)練的語言模型抽取語言特征,而那兩個(gè)詞的詞嵌入向量則保留了原始信息。


除了需要預(yù)測(cè)最可能的當(dāng)前詞,更重要的是需要通過質(zhì)量評(píng)估特征向量為后續(xù)運(yùn)算遷移足夠的語言知識(shí)。因此阿里的模型從詞預(yù)測(cè)模型中抽取了兩種質(zhì)量評(píng)估特征,除了深層語義特征外,考慮到目標(biāo)端詞預(yù)測(cè)的概率能表示當(dāng)前詞出現(xiàn)的可能性,還額外抽取了如下的 mis-matching 特征:


1. 深層語義特征:


正向深層語義特征向量 

反向深層語義特征向量 

前一個(gè)詞的詞向量 

后一個(gè)詞的詞向量 


2. Mis-matching 特征:


目標(biāo)端強(qiáng)制解碼為當(dāng)前詞的概率信息 

概率最高詞語的概率信息 

強(qiáng)制解碼為當(dāng)前詞與解碼為概率最高詞的概率信息差異 

當(dāng)前詞與預(yù)測(cè)詞是否一致 


其中正向和反向深層語義特征都從 Transformer 的解碼器中抽出,正向語義特征  包含了原語序列的所有信息和目標(biāo)語第 k 個(gè)詞之前的語義信息,反向語義特征  包含了原語序列的所有信息和目標(biāo)語第 k 個(gè)詞之后的語義信息;同時(shí),深層語義特征還包含第 k-1 個(gè)詞的詞義信息  和第 k+1 個(gè)詞的詞義信息 。在基于『雙語專家』條件語言模型的詞預(yù)測(cè)模型的預(yù)測(cè)解碼環(huán)節(jié),阿里機(jī)器翻譯團(tuán)隊(duì)利用以上所有深層語義表達(dá),重構(gòu)了目標(biāo)語 (Token Reconstruction)。所以如果我們強(qiáng)制解碼為真實(shí)的詞語,就可以取特征信息 。不強(qiáng)制解碼,保留模型預(yù)測(cè)最可能出現(xiàn)的詞語,我們就能得到特征信息 。剩下的兩種特征則描述了 m_k 與 i_max 之間的關(guān)系。


質(zhì)量評(píng)估模型


在抽取了質(zhì)量評(píng)估特征后,它們可以與人工抽取的特征一起作為質(zhì)量評(píng)估模型或 Quality Estimator 的輸入來計(jì)算譯文質(zhì)量。不過既然基于條件語言模型的特征抽取模型和質(zhì)量評(píng)估模型有緊密的聯(lián)系,那么為什么不能將這兩個(gè)模型聯(lián)合在一起實(shí)現(xiàn)端到端的訓(xùn)練呢?陳博興表示如果做端到端的訓(xùn)練,很多人工添加的特征是無法使用的。此外,特征抽取模型廣泛使用的平行語料與質(zhì)量評(píng)估模型使用的 QE 數(shù)據(jù)集有比較大的不匹配性,聯(lián)合訓(xùn)練可能會(huì)產(chǎn)生較差的性能。這一點(diǎn)也非常直觀,平行語料只包含正確的目標(biāo)語句子,而 QE 數(shù)據(jù)集同時(shí)包含正確與不正確的目標(biāo)語句子。


正因?yàn)樘卣鞒槿∧P秃唾|(zhì)量評(píng)估模型雖然高度相關(guān),但還是兩個(gè)獨(dú)立的模型,所以我們能額外手動(dòng)提取一些特征來提升模型效果。這些基礎(chǔ)特征包括句長、標(biāo)點(diǎn)符號(hào)數(shù)量、句子語言模型分?jǐn)?shù)等,因此除了第一階段提取的特征外,阿里還額外融合了 17 個(gè)人工提取的特征,與之前隱層合并結(jié)果再次合并作為預(yù)測(cè)條件。


若將所有特征向量都拼接在一起,且每一個(gè)特征向量視為一個(gè)時(shí)間步,那么我們就能以如下方式利用從原文與譯文中抽取的語義信息。

微信圖片_20180803163324.jpg


阿里機(jī)器翻譯團(tuán)隊(duì)采用的質(zhì)量評(píng)估模型就是基于雙向 LSTM,模型預(yù)測(cè)的目標(biāo)即句子層面的翻譯質(zhì)量和單詞層面的翻譯對(duì)錯(cuò)。其實(shí)這兩個(gè)任務(wù)除了評(píng)估階段采用的架構(gòu)不一樣,其它如特征抽取等過程都是一樣的。在句子層面中,biLSTM 編碼的前向的最后一個(gè)時(shí)間步與后向的最后一個(gè)時(shí)間步的隱藏特征聯(lián)合計(jì)算一個(gè)實(shí)數(shù)值以表示翻譯質(zhì)量,而在詞語層面的評(píng)估任務(wù)中,biLSTM 編碼對(duì)應(yīng)的 目標(biāo)端詞的每一個(gè)時(shí)間步的前后向量隱藏特征聯(lián)合計(jì)算一個(gè)值以將它們分類為 OK 或 BAD。


數(shù)據(jù)與應(yīng)用


整個(gè)翻譯評(píng)估系統(tǒng)需要使用兩種數(shù)據(jù),即詞預(yù)測(cè)模型所使用的平行數(shù)據(jù)集和評(píng)估模型所使用的 QE 數(shù)據(jù)集。其中平行數(shù)據(jù)集可以在廣泛的領(lǐng)域收集,我們的目的是訓(xùn)練一個(gè)能抽取語言語義信息的模型,這很類似于預(yù)訓(xùn)練一個(gè)強(qiáng)大的語言模型。


而 WMT 組委會(huì)提供的 QE 訓(xùn)練數(shù)據(jù)只有 1 至 3 萬,這對(duì)于訓(xùn)練一個(gè)強(qiáng)大的魯棒性翻譯質(zhì)量評(píng)估模型是遠(yuǎn)遠(yuǎn)不夠的。陳博興表示阿里機(jī)器翻譯團(tuán)隊(duì)在英德和德英語向上分別構(gòu)造 了 30 萬左右的 QE 訓(xùn)練偽數(shù)據(jù)。這部分?jǐn)?shù)據(jù)與真實(shí) QE 數(shù)據(jù)合并訓(xùn)練完質(zhì)量評(píng)估基線模型后,會(huì)再使用真實(shí)的 QE 數(shù)據(jù)微調(diào)模型,即使用一個(gè)在大的數(shù)據(jù)集上預(yù)訓(xùn)練好的模型在真實(shí)場(chǎng)景數(shù)據(jù)上微調(diào)。


阿里機(jī)器翻譯團(tuán)隊(duì)參考了一些 WMT Automatic Post-Editing (APE)任務(wù)的方法。采用了一種 round-trip translation 的技術(shù)。先從大量單語數(shù)據(jù)中篩選出領(lǐng)域相關(guān)的單語,作為人工后編輯譯文 PE;同時(shí)用雙語語料訓(xùn)練兩個(gè) MT 系統(tǒng)(例如,如果要做英語到德語的翻譯質(zhì)量評(píng)估,需要訓(xùn)練德語到英語和英語到德語的機(jī)器翻譯系統(tǒng))。將篩選的領(lǐng)域單語先通過一個(gè) MT 系統(tǒng)生成原文 SRC;SRC 再通過另一個(gè) MT 系統(tǒng)生成譯文 MT。這樣兩次調(diào)取 MT 結(jié)果的方法,生成了一批原文,譯文和人工后編輯譯文組合的 APE 數(shù)據(jù),稱為 APE 訓(xùn)練偽數(shù)據(jù)。然后他們通過 TER 工具生成了對(duì)應(yīng)的 HTER 分?jǐn)?shù)和詞標(biāo)注,構(gòu)造出了 QE 偽數(shù)據(jù)。為了更好地模擬真實(shí)數(shù)據(jù),他們根據(jù)真實(shí) QE 數(shù)據(jù)的 HTER 分布,從構(gòu)造的偽數(shù)據(jù)中隨機(jī)挑選出 30 萬。這些偽數(shù)據(jù)先與真實(shí)的 QE 數(shù)據(jù)一起訓(xùn)練一個(gè) Quality Estimator 的基礎(chǔ) Baseline 模型,再單獨(dú)用真實(shí)的 QE 數(shù)據(jù) fine tune 模型。


最后,開發(fā)這樣一個(gè)翻譯質(zhì)量評(píng)估系統(tǒng)肯定是需要投入應(yīng)用的。陳博興表示翻譯質(zhì)量評(píng)估模型可以應(yīng)用在很多業(yè)務(wù)上,例如它可以判斷翻譯系統(tǒng)給出的結(jié)果是不是足夠優(yōu)秀,能不能直接展示給用戶。如果質(zhì)量不行的話,譯文就可能需要人工校對(duì)。這對(duì)阿里的商品翻譯是非常重要的,因?yàn)槿绻a(chǎn)品品牌、買賣價(jià)格、產(chǎn)品描述等機(jī)器翻譯出現(xiàn)了誤差,那么很容易引起業(yè)務(wù)上的糾紛。


此外,由于 BLEU 值只能評(píng)估有參考譯文的翻譯結(jié)構(gòu),這種翻譯質(zhì)量評(píng)估系統(tǒng)能更廣泛地輔助機(jī)器翻譯或人工翻譯。陳博興表示該系統(tǒng)還可以更直接地評(píng)估數(shù)據(jù),因?yàn)榫W(wǎng)上收集或購買的數(shù)據(jù)可能并不能保證質(zhì)量,所以該系統(tǒng)可以充當(dāng)過濾作用而確定能投入訓(xùn)練的高質(zhì)量雙語數(shù)據(jù)集。總而言之,阿里在利用高質(zhì)量雙語數(shù)據(jù)集與 QE 數(shù)據(jù)集訓(xùn)練質(zhì)量評(píng)估模型后,它反過來可以評(píng)估其它雙語數(shù)據(jù),并將優(yōu)秀的數(shù)據(jù)投入翻譯模型的訓(xùn)練與質(zhì)量評(píng)估系統(tǒng)的訓(xùn)練。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。