中文引用格式: 曾文顥,張勇丙,余正濤,等. 融入翻譯記憶庫的法律領(lǐng)域神經(jīng)機(jī)器翻譯方法[J]. 電子技術(shù)應(yīng)用,2023,49(9):39-45.
英文引用格式: Zeng Wenhao,Zhang Yongbing,Yu Zhengtao,et al. Legal neural machine translation based on translation memory[J]. Application of Electronic Technique,2023,49(9):39-45.
0 引言
近年來,隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)機(jī)器翻譯(NMT)在大量翻譯任務(wù)上取得了巨大成功[1],面向法律領(lǐng)域的機(jī)器翻譯也得到了領(lǐng)域內(nèi)學(xué)者的大量關(guān)注。法律領(lǐng)域機(jī)器翻譯在法律條款、合同文本和涉外公證文書等實(shí)際場景中也具有重要的應(yīng)用價值。
目前融入外部信息是提升特定領(lǐng)域機(jī)器翻譯的有效途徑[2-5]。相較于傳統(tǒng)的生成模型,引入外部信息可以讓模型獲得訓(xùn)練數(shù)據(jù)中沒有的附加信息,降低文本生成的難度,減少對訓(xùn)練數(shù)據(jù)的依賴。現(xiàn)有的融入外部信息的方法主要分為三類:基于雙語詞典、基于翻譯記憶和基于翻譯模版。
基于雙語詞典的方法[6]用于解決低頻詞和術(shù)語翻譯等問題,利用雙語詞典作為外部資源輸入神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。Arthur等人[7]提出一種通過使用離散詞典來增強(qiáng)神經(jīng)機(jī)器翻譯系統(tǒng)的方法,以解決低頻次翻譯錯誤問題,這些詞典可以有效地編碼這些低頻單詞的翻譯。
本文詳細(xì)內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000005635
作者信息:
曾文顥1,2,張勇丙1,2,余正濤1,2,賴華1,2
(1.昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)