国产视频www-国产视频xxx-国产视频xxxx-国产视频一二-一本大道香蕉中文日本不卡高清二区-一本久久精品一区二区

樹人論文網一個專業的學術咨詢網站!!!
樹人論文網

基于強化學習和機器翻譯質量評估的中朝機器翻譯研究

來源: 樹人論文網發表時間:2021-02-26
簡要:摘 要:針對目前機器翻譯模型存在的曝光偏差和譯文多樣性差的問題,提出一種基于強化學習和機器翻譯質量評估的中朝神經機器翻譯模型 QR-Transformer。首先,在句子級別引入評價機制

  摘 要:針對目前機器翻譯模型存在的曝光偏差和譯文多樣性差的問題,提出一種基于強化學習和機器翻譯質量評估的中朝神經機器翻譯模型 QR-Transformer。首先,在句子級別引入評價機制來指導模型預測不完全收斂于參考譯文;其次,采用強化學習方法作為指導策略,實現模型在句子級別優化目標序列;最后,在訓練過程中融入單語語料并進行多粒度數據預處理以緩解數據稀疏問題。實驗表明,QR-Transformer 有效提升了中朝神經機器翻譯性能,與 Transformer 相比,中-朝語向 BLEU 值提升了 5.39,QE 分數降低了 5.16,朝-中語向 BLEU 值提升了 2.73,QE 分數下降了 2.82。

基于強化學習和機器翻譯質量評估的中朝機器翻譯研究

  本文源自計算機應用研究 發表時間:2021-02-25《計算機應用研究》系中國計算機學會會刊之一,創刊于1984年,由國家科技部所屬四川省計算機研究院主辦,北京、天津、山東、吉林、云南、貴州、安徽、河南、廣西、甘肅、內蒙古等十余省市計算中心協辦的計算技術類學術刊物[1]。

  關鍵詞:機器翻譯;中朝機器翻譯;強化學習;機器翻譯質量評估

  神經機器翻譯(Neural Machine Translation, NMT)首次由 Kalchbrenner 和 Blunsom 在 2013 年提出[1],之后幾年間,大量基于編碼器-解碼器結構的神經機器翻譯模型涌現[2~4],翻譯性能和速度也不斷被刷新。隨著深度學習迅速發展,神經機器翻譯由于其優越的性能和無須過多人工干預等特點,近年來備受關注[5,6]。朝鮮語是我國朝鮮族的官方語言[7],同時通行于朝鮮半島、美國、俄羅斯遠東地區等朝鮮族聚居地區,具有跨國跨地區的特點。朝鮮族是我國 24 個擁有自己語言的少數民族之一[8],因此中朝機器翻譯的研究,對促進少數民族語言文字工作的發展、推動中朝、中韓跨語言信息交流具有重要的現實意義和迫切的時代需求。

  目前,多數 NMT 模型在訓練時采用教師強制策略,即最小化生成句子及參考譯文之間的差異,迫使生成譯文與參考譯文無限接近。首先,由于在句子預測過程中通常沒有參考譯文可用,會帶來曝光偏差問題,這可能會影響模型的性能與魯棒性[9]。其次,語言中大量存在著同義詞與相似表達現象,因此即使使用教師強制策略,也無法保證模型每次生成譯文與參考譯文一致,且會極大遏止翻譯的多樣性,使得大部分合理譯文均為不可達狀態[10]。另外,對于中朝機器翻譯而言,國內對于該任務的研究起步晚、基礎差,缺少大規模平行語料。在低資源環境下提升中朝機器翻譯質量面臨諸多問題。

  獲取優質的譯文是機器翻譯模型的基本要求和最終目標 [11],模型輸出的譯文應當達到預期的翻譯質量。從實用角度考慮,機器翻譯的評測指標應該是可調整的,即可以直接應用于機器翻譯系統的優化[12]。因此本文嘗試在句子級別引入一種評價機制來指導模型預測不完全收斂于參考譯文,以此緩解曝光偏差問題和翻譯多樣性差問題。評價機制采用無參考譯文的機器翻譯質量評測 (Quality Estimation, QE),指導策略采用策略優化的強化學習方法,能夠實現模型在句子級別上優化目標序列。為緩解強化學習本身存在公認的訓練不穩定和方差大等問題,本文將傳統神經機器翻譯的交叉熵損失函數與強化學習獎勵函數進行線性組合,并借鑒了 Weaver 等提出的基線反饋方法[9]。另外由于先前工作均采用 BLEU值[13]作為獎勵函數[14,15],直接使用評價指標優化模型參數會導致模型產生嚴重偏向性,加劇了翻譯多樣性差的問題,因此本文提出了一種基于 QE 評價的獎勵函數。同時在訓練過程中使用單語語料和不同粒度的朝鮮語預處理,能夠克服數據稀疏性并提升低資源語言機器翻譯質量。

  1 相關工作

  1.1 Bilingual Expert 機器翻譯質量評估模型

  機器翻譯質量評估不同于機器翻譯的評價指標如 BLEU, TER[16],METEOR[17]等,它能夠在不依賴任何參考譯文的情況下,自動給出機器生成譯文的質量預測。目前最常用的質量得分為人工編輯距離 HTER。HTER 需要語言學專家對機器生成譯文進行后編輯,直至譯文通順且符合源句語義為止,這樣計算得到的編輯距離即 HTER 分數。由于計算過程中采用非定向參考譯文,因此機器翻譯質量評估對于多樣化的機器翻譯更加友好。

  為解決機器翻譯質量評估問題,Kai 等在 2019 年提出了 Bilingual Expert 模型[18]。該模型由詞預測模塊和質量評估模塊兩部分組成。首先通過平行語料對詞預測模塊進行訓練,訓練過的詞預測模塊可提取到翻譯特征,其次將獲取特征和質量得分標注輸入至質量評估模塊訓練,最終可實現對待評估句子質量的自動評估。詞預測模塊通過雙向自注意網絡模型獲取當前被預測詞的上下文信息,從而對目標端單詞進行預測。質量評估模塊將詞預測模塊抽取出的特征通過 BiLSTM 回歸預測模型得到反映譯文質量的得分。

  1.2 基于自注意力的神經機器翻譯

  Vaswani 等提出的機器翻譯架構 Transformer[19]模型基于編碼器-解碼器結構,該模型完全擯棄了循環[5]和卷積[20]操作,開創性地使用自注意力機制來實現序列解碼問題,解決了傳統網絡結構并行力差和長距離依賴問題。

  如圖 1 所示,Transformer 模型的編碼器由 n 層堆疊形成,每層又包含多頭注意力和全連接前饋神經網絡兩個子層,并均在其后添加殘差連接[21]和層歸一化[22]操作。模型使用多頭縮放點積注意力,當輸入維度為 dk 的請求 Q 、鍵 K 和維度為 dv 的值 V 時,注意力機制可表示為

  Attention ( ) softmax T dk ? ? = ? ? ? ? QK Q,K,V V (1) 多頭注意力機制可表示為 ( ) ( ) 1 h i MultiHead ( ) =Concat head ,..., e & head head =Att nt n io Q K V i i i Q,K,V Q K W W , W ,V (2)

  解碼器部分與編碼器基本相同,不同之處在于在每層添加了交叉注意子層用來對源隱藏狀態進行多頭關注。另外為了在解碼器預測目標序列時保持下文單詞不可見狀態,加入了掩碼操作。

  1.3 基于強化學習的機器翻譯模型

  強化學習通過從環境狀態映射到動作過程中獲取最大累計獎賞,解決了復雜狀態空間下的決策問題,為自然語言處理任務提供了新思路[23]。在序列級任務中引入強化學習,使得訓練過程中直接優化獎勵,解決了訓練和預測過程中依賴分布不同導致的曝光偏差問題。大量工作表示出強化學習在序列生成任務中的優勢[24,25]。

  強化學習的基本思想是智能體根據當前交互環境選取一個執行動作,之后環境以某概率發生轉移并反饋給智能體一個獎懲,智能體以最大化獎勵為目的重復上述過程[26]。具體到翻譯任務中,NMT 模型視為作出決策的智能體,采用隨機策略 從詞表中選取候選詞看做一個動作,智能體訓練期間的目標是追求期望獎勵最大化,即: ( ) * a a t a = ? argmax | ; ? t s (3)

  2 翻譯模型框架結構

  為緩解曝光偏差問題和翻譯多樣性差問題,本文提出了一種基于強化學習和機器翻譯質量評估的中朝機器翻譯模型 (Quality Estimation Reinforced Transformer, QR-Transformer)。 QR-Transformer 在句子級別引入評價機制指導模型預測不完全收斂于參考譯文。模型具體框架結構如圖 2 所示,主要包含機器翻譯和機器翻譯質量評估兩個模塊。模型翻譯模塊采用編碼器-解碼器架構與 Transformer 保持一致,評估模塊采用句子級別的機器翻譯質量評估模型 Bilingual Expert,采用強化學習方法進行訓練。訓練算法如下:

  算法 1 模型訓練算法輸入:? (a s t t | ;?) 。輸出:? (a s t t + + 1 1 | ;?) 。初始化參數? ; 初始化狀態 t s ; while 未收斂: if t s 不是終止狀態: 根據策略? (a s t t | ;?) 選擇出動作 t a ; 選取下一單詞 t 1 y + ; 通過質量評估模塊計算獎勵 tr 并進入新狀態 t 1 s + ; for 狀態-動作集合的每一步: 更新參數? ? ? + − ? (r b a s t t t ) ? ? log | ? ( ) ; end for return ?

  機器翻譯過程中 NMT 系統作為強化學習的智能體,通過不斷與環境進行交互獲取當前時刻環境狀態信息,即時間步 下源句 及生成目標句的上文 。其中 表示時間步 之前模型預測的目標句。智能體根據當前環境的狀態決策出下一步所選單詞,同時獲得當前狀態執行選詞操作后的獎勵值并進入下一狀態,通過強化學習最終找到翻譯的最優策略。

  根據模型結構將機器翻譯任務描述為:給定中朝平行語料,訓練一個參數為?的機器翻譯模型 M?;機器翻譯模型 M?將 給定源句序列 x= , ,..., ( x x x 1 2 n ) 翻譯為目標句序列 y= , ,..., ( y y y 1 2 n ) ,其中 nm, 分別為源句及目標句的序列長度;在時間步 t 時,狀態 yt 定義當前時間步翻譯模型 M?生成的目標句 yt t = , ,..., ( y y y 1 2 ) ,動作 定義為在當前環境下選取下一個單詞 yt+1 ;給定譯文數據及其 HTER 得分,訓練參數為?的機器翻譯質量評估模型 Q?,進行有監督訓練之后的質量評估模型 作為獎勵函數的生成器對未見譯文給出質量打分 ( ) ˆ Score y QE t ,機器翻譯模型 M?在 ( ) ˆ Score y QE t 的指導下與環境交互從而產生下一個單詞 。

  2.1 基于機器翻譯質量評估模型的反饋信號生成

  優秀的譯文通常包括忠實度、流利度等多方位評價,因此機器翻譯任務難以抽象成簡單的優化問題。所以本文不直接采用人工設定單一規則作為獎勵函數來源,而使用機器翻譯質量評估模型 Q?的輸出作為獎勵的一部分,模型 Q?可以通過相對復雜的網絡結構對生成譯文進行更為全面的評分,評分結果與人類評價更具有相關性,且對譯文多樣性的包容度更高。

  本文中模型 Q?使用與 Bilingual Expert 相同的網絡結構,模型包括一個基于雙向 Transformer 的詞預測模塊和基于 BiLSTM 回歸預測模型。雙向 Transformer 架構包括源句的自注意力編碼器、目標句的雙向自注意力編碼器和目標句的重構器三個部分。通過在大規模平行語料上進行預訓練獲取隱藏狀態特征 h 。編碼器部分對應 q h x y ( | , ) ,解碼器部分對應 P y h ( | ) ,計算公式如下:

  q h x y q h x y q h x y =? ? ? (4) ( | ) ( | , ) t t t t p y h p y h h =? (5) 隱藏狀態 h h h = ,..., ( 1 m ) 為前向后向隱藏狀態的拼接,獲取了句子深層次的翻譯特征。最后提取特征如下: Concat , , , , ( 1 1 ) mm t t t t f h h e e f = − + (6) 其中, 1 1 , e e t t − + 為目標位置前后詞項詞嵌入表示, mm f 為錯誤匹配特征。最后將特征 輸入至 Bi-LSTM 進行訓練得到預測 HTER 得分: HTER =sigmoid Bi-LSTM ( ? ( )?) w f T ? (7) 訓練過程目標函數為 2 arg min||HTER-HTER ||2 ? (8)

  式(7)中得到的標量值即為機器翻譯質量評估模塊對生成譯文的評價,與 BLEU 值相比更具有深層次翻譯特征,因此 QR-Transformer 使用該值對機器翻譯模塊進行指導,達到預測譯文不完全收斂于參考譯文的效果。

  2.2 基于強化學習的訓練方法

  基于強化學習的翻譯任務中,采用隨機策略? (at | ; st ?) 從詞表中選取候選詞看做一個動作,智能體在訓練過程中,通過解碼器生成目標句后環境給出的獎勵來學習得到更優譯文。? ? (at t | ; * s W s b t ? = + ) ( ) (9) 其中:? (at | ; st ?) 表示選擇動作的概率, 代表 sigmoid 函數;代表策略網絡的參數。訓練期間,動作采樣表示為給定源句和上文下選取該詞的條件概率 ,目標為追求期望獎勵最大化,如式(4)所示。當生成完整目標句后,將句子的質量評估得分作為標簽信息計算反饋值,結合強化學習算法中的 Policy Gradient 方法[27]最大化預期收益,如公式(10)所示。 ( ) ( ) ( ) ( ) ˆ ˆ 1 ˆ 1 ( ) i ˆ ˆ ˆ N N i y p y x i i y Y J E R y p y x R y ? = = ?? = ? = ∣ ? ? ∣ (10)

  其中 Y 是候選翻譯句子組成的空間,R y( ˆ) 表示譯文的句子級反饋,因為在時間步 t+1的狀態完全由時間步 t 的狀態決定,因此概率 與 p(S S t+1 t | ,at ) 為 1。最終使用梯度更新策略,如式(11)所示。 ( ) 1 1 1 ( ) ( - ) log | N L L t n t J R b a N ? ? ? ? = = ? ? = − ? ? ? t s (11)

  其中, N 代表回合數, ,REINFORCE 算法的梯度估計存在較大差異,這主要是由于使用單個樣本來估計期望值所致。為了減少差異,在每個時間步 t 從返回的獎勵中減去平均獎勵,作為更新策略的實際獎勵,從而避免迭代方向一直朝著錯誤方向進行,加快收斂速度。

  3 強化學習模型的訓練

  3.1 基于波束搜索的動作采樣策略

  基于強化學習的機器翻譯任務動作空間巨大且離散,其大小為整個單詞表容量。在對動作空間進行采樣時,使用窮舉搜索可以保證獲取到最佳動作,但其計算成本過高,貪心策略計算成本小但無法保證獲取最優序列。因此需要一個合理策略權衡性能與計算成本的關系。

  波束搜索(beam search)[28]是貪心搜索的改進版本,它設置一個超參數波束大小 k 。在時間步 t 選擇具有最高條件概率的樣本作為候選輸出序列。在隨后時間步中,對上一時間步選出的候選序列重復上述操作。波束搜索的計算成本介于貪心搜索和窮舉搜索之間。特別地,當波束大小為 1 時,波束搜索退化為貪心搜索。通過靈活選擇波束大小,能夠在性能與計算成本之間進行權衡。波束搜索原理示意如圖 3 所示。

  具體到機器翻譯任務中,波束搜索使得模型在解碼階段保留概率最高 k 個候選詞項,并留至下一時間步繼續計算產生 k 個隱層狀態,維持波束大小不變會產生 k k ?個預測結果,根據預測結果不斷生成序列直至產生句子結束符時終止。由于在每一時間步考慮了多種可能性,使得解碼階段產生高質量翻譯結果的概率增大。

  3.2 融合 BLEU 值和 QE 分值的反饋函數設計

  建立恰當的獎勵機制對獲取高質量翻譯至關重要,因此設計高泛化能力的反饋函數是研究的重點。在以往的神經機器翻譯任務中,均假設生成目標句每個詞項的有效預測值唯一,即針對每個句子具有固定的參考譯文,因此最小風險培訓方法[29]或基于強化學習的神經機器翻譯模型[14,15]均使用生成句子與參考譯文之間的相似得分 BLEU 值作為訓練目標。然而在自然語言中,同一源句片段可對應多個合理翻譯,基于 BLEU 值的反饋函數無法對參考譯文以外的詞匯給出合理的獎懲力度,使得大部分合理譯文被否定,極大限制了強化學習對翻譯效果的提升,加劇了機器譯文多樣性差問題。因此本文將反饋函數設置為 ( ) ( ) ( ) 1 ˆ ˆ ˆ 1 t BLEU t QE t R y Score y Score y ?? − = + + (12)

  其中, Score y BLEU t ( ˆ ) 為生成譯文與參考譯文之間的歸一化 BLEU 值, 為生成譯文的歸一化 QE 評估得分;超參數 用于平衡 BLEU 值和 QE 得分之間的權重,避免引入QE 得分后有可能加重訓練不穩定的問題,從而使得訓練能在較快速度收斂的同時充分考慮到翻譯的多樣性。

  在機器翻譯任務中,智能體需要采取數十個動作來生成一個完整目標句,但生成完整序列后僅可獲得一個終端反饋,且序列級的獎勵無法區分每一詞項對總獎勵的貢獻程度,因此存在獎勵稀疏問題,這會導致模型收斂速度緩慢甚至無法學習。獎勵塑造(Reward shaping)可緩解這一問題。該方法為解碼的每個時間步都分配一個即時獎勵,需要將獎勵對應至詞語級別,設置為 r y R y R y t t t t ( ˆ ) = − ( ˆ ) ( ˆ −1 ) (13)

  在訓練期間,每完成一次采樣動作均計算一個累計獎勵作為當前序列反饋值,兩個連續時間步之間的反饋差值為詞項級別獎勵。這樣模型在每次動作結束后都可獲取當前時間步的即時獎勵,從而緩解了獎勵稀疏問題。實驗證明,使用獎勵塑造不會改變最優策略,同時由于整個序列的獎勵值為每個詞項級獎勵之和,與序列級獎勵值保持一致,因此不會影響序列總獎勵。 ( ) 1 ( ) ˆ ˆ T t t t t R y r y = = ? (14)

  3.3 損失函數設計

  為穩定強化訓練過程,緩解強化學習可能帶來的較大方差,本文將 MLE 訓練目標與 RL 目標相結合。具體步驟是在損失函數中保留傳統機器翻譯的交叉熵損失函數,然后與強化學習訓練目標進行線性組合。混合后的損失函數為 L L L combine mle rl = + 1 ? ? ? − ( ) (15) 其中, 表示結合損失函數, Lmle 表示交叉熵損失函數,表示強化學習獎勵函數,?是控制 Lmle 和 Lrl 的之間權重的超參數。由于模型在訓練初期得到的譯文比較粗糙,難以達到理想翻譯效果,因此完全使用強化學習目標進行訓練(即? =0 )時,會使得模型收斂困難,從而直接影響到模型翻譯性能;而一昧地增大交叉熵損失函數的比例則會削弱強化學習對模型帶來的性能提升。所以通過?值對交叉熵損失和強化學習目標進行權衡,能有效實現模型效益最大化。

  4 實驗結果及分析

  4.1 實驗語料

  實驗用于訓練翻譯模型和譯文質量評估模型的數據資源來自于本實驗室承擔“中韓科技信息加工綜合平臺”項目構建的中-英-朝平行語料[30]。原始語料包含 3 萬余句,涉及生物技術、海洋環境、航天 3 個領域。為緩解數據稀疏問題,實驗還使用了額外單語語料。按照本文任務進行預處理后得到的詳細數據信息如表 1 所示。QE 任務的 HTER 得分由 TERCOM 工具自動計算得到。

  4.2 多粒度數據預處理

  大規模的語料詞嵌入可以為模型提供充分的先驗信息,加快模型的收斂速度,有效提升下游任務效果。然而朝鮮語屬于低資源語言,缺乏大規模語料,因此語料中會存在大量低頻詞,進而導致詞向量質量較低。針對這一問題,本文使用更加靈活的朝鮮語語言粒度進行詞嵌入,以此緩解數據稀疏問題。朝鮮語屬于表音音素文字,從語音角度而言,朝鮮語由音素按照規則構成音節,音節再構成語句。由于音素和音節數量相對固定(音素 67 個,音節 11172 個),使用這樣的粒度構建詞典的規模非常小,與其他粒度相比能夠明顯減少低頻詞的存在。另外從語義角度看,分詞具有更清晰的形態以及語言特征。因此考慮使用音素、音節、詞三個粒度對朝鮮語文本進行語料預處理。音素使用開源音素分解工具 hgtk 獲取,音節直接通過讀取字符獲得,分詞采用分詞工具 Kkma。

  4.3 實驗設置

  翻譯模塊在基于自注意力的編碼器-解碼器框架上實現, Transformer 系統采用與 Vaswani 等[14]描述相同的模型配置,具體實現采用谷歌大腦構建的 Tensor2Tensor 開源工具, dropout 設置為 0.1,詞向量維數為 512,MLE 訓練梯度優化算法使用 Adam 算法[31]并使用學習率衰減調度;機器翻譯質量評估模塊,特征提取部分編碼器和解碼器層數為 2,前饋子層隱藏單元數為 1024,注意力機制 head 數為 4;質量評估部分使用單層 Bi-LSTM,隱層單元設置為 512,梯度優化算法使用 Adam,學習率設置為 0.001;強化學習訓練過程中使用 MLE 模型進行參數初始化,學習率設置為 0.0001,波束搜索寬度設置為 6。

  4.4 實驗結果

  4.4.1 翻譯性能

  為驗證模型的翻譯性能,本文在相同硬件條件和語料規模下,與幾個常見的代表性神經機器翻譯模型進行中朝翻譯對比實驗。其中 LSTM+attention 模型使用 Bahdanau 等人[5] 提出的網絡結構,并將循環單元替換為對長距離依賴更友好的 LSTM;Transformer 模型使用 Vaswani 等人[19]提出的基于自注意力的網絡結構。分別計算各模型在測試集上的 BLEU 值和 QE 值,所得結果如表 2 所示。

  從表 2 可以看出,QR-Transformer 在中-朝和朝-中兩個方向的翻譯任務上均可以超過基線模型,與 LSTM+attention 相比,中-朝語向 BLEU值提升了 9.87,QE分數降低了 59.68,朝-中語向 BLEU 值提升了 10.99,QE 分數下降了 57.76;與 Transformer 相比,中-朝語向 BLEU 值提升了 5.39,QE 分數降低了 5.16,朝-中語向 BLEU 值提升了 2.73,QE 分數下降了 2.82,引入評價模塊有效提高了中朝機器翻譯性能。

  由于模型引入了機器翻譯質量模塊對翻譯模塊進行強化訓練,因此為保證該策略的合理性和有效性,本文對機器翻譯質量評估模塊性能進行驗證。驗證指標采用 WMT 比賽使用的皮爾遜相關系數(Pearson’s Correlation Coefficient)、平均絕對誤差(Mean Average Error, MAE)和平方根均方誤差(Root Mean Squared Error, RMSE)。皮爾遜相關系數用于衡量預測值和真實值之間的相關性,正相關性越高則 QE 模塊性能越好。平均絕對誤差和平方根均方誤差分別代表預測值和真實值之間絕對誤差的平均值和均方誤差的平方根,值越小越好。同 時 實 驗 與 開 源 系 統 QuEst++[32]進 行 對 比 , 該系統為 WMT2013-2019 官方基線系統。具體實驗結果如表 3 所示。

  從表3實驗結果可以看出,實驗中采用的Bilingual Expert 相較于 QE 任務的基線系統 QuEst++有較好的性能提升,皮爾遜相關系數提高了 0.079,MAE 降低了 0.018,RMSE 降低了 0.007,與人工評價具有較高的相關性,證明了本實驗采用的機器翻譯質量評估模型的有效性。因此利用機器翻譯質量評估模塊來優化翻譯模塊是合理的。

  在表 4 的翻譯示例中,QR-Transformer 在中-朝、朝-中兩個語向上得到的翻譯較為準確,譯文的流暢度和忠實度都符合目標語言規范,且譯文質量明顯優于其余基線模型,證明 QR-Transformer 可以有效提升中朝神經機器翻譯模型的性能。

  5 結束語

  為緩解機器翻譯任務中教師強制策略帶來的曝光偏差和翻譯多樣性差的問題,本文提出了一種基于強化學習和機器翻譯質量評估的中朝機器翻譯模型 QR-Transformer。該模型在句子級別引入了一種評價機制,以此指導模型預測不完全收斂于參考譯文。評價機制采用無參考譯文的機器翻譯質量評估,指導策略采用強化學習方法。實驗結果表明,該方法能夠有效提升中朝機器翻譯的性能。在下一步工作中,本文將結合中文和朝鮮語的語言特點,探索更適配于中朝機器翻譯評估的模型,從而進一步提升中朝機器翻譯系統的性能。

主站蜘蛛池模板: 国产精品久久久久久一区二区三区 | 国产日韩欧美swag在线观看 | 成人偷拍视频 | 日韩精品亚洲人成在线观看 | 免费高清不卡毛片在线看 | 亚洲欧美一区二区三区 | 国产午夜精品久久理论片 | 大狠狠大臿蕉香蕉大视频 | 国产精品久久久久无毒 | 一级高清毛片免费a级高清毛片 | 一本色道久久综合亚洲精品加 | 日韩 国产 欧美 | 自拍视频精品 | 一区二区影院 | 日本一级毛片中文字幕 | 久久香蕉国产观看猫咪3atv | 国产三级三级三级 | 99久久精品国产一区二区小说 | 日韩免费一级a毛片在线播放一级 | 欧美视频在线观看 | 波少野结衣在线播放 | 国产精品videosse | 国产日韩欧美视频在线 | 欧美透逼视频 | 97操碰 | 国产在线观看网址你懂得 | 男女超猛烈啪啦啦的免费视频 | 欧美日韩一区二区三区四区在线观看 | 午夜精品久久久久久毛片 | 午夜宅男在线永远免费观看网 | 91成人爽a毛片一区二区 | 日韩视频在线观看中字 | 国产成人在线网址 | 久草视频福利资源站 | 国产亚洲人成网站在线观看 | 国产成人高清在线观看播放 | 国产成人自拍在线 | 国产亚洲福利 | 国产成年人网站 | 欧美一级高清视频在线播放 | 黄色a一片 |