国产视频www-国产视频xxx-国产视频xxxx-国产视频一二-一本大道香蕉中文日本不卡高清二区-一本久久精品一区二区

樹人論文網(wǎng)一個專業(yè)的學術咨詢網(wǎng)站?。?!
樹人論文網(wǎng)

基于刑事Electra的編-解碼關系抽取模型

來源: 樹人論文網(wǎng)發(fā)表時間:2021-07-28
簡要:摘 要: 針對司法領域關系抽取任務中模型對句子上下文理解不充分、重疊關系識別能力弱的問題,提出了一種基于刑事 Electra(CriElectra)的編-解碼關系抽取模型。首先參考中文 Electra 的訓

  摘 要: 針對司法領域關系抽取任務中模型對句子上下文理解不充分、重疊關系識別能力弱的問題,提出了一種基于刑事 Electra(CriElectra)的編-解碼關系抽取模型。首先參考中文 Electra 的訓練方法,在一百萬份刑事數(shù)據(jù)集上訓練得到了 CriElectra,然后在雙向長短期記憶網(wǎng)絡(BiLSTM)模型上加入 CriElectra 的詞特征進行司法文本的特征提取,最后通過膠囊網(wǎng)絡(CapsNet)對特征進行矢量聚類,實現(xiàn)實體間的關系抽取。在自構建的故意傷害罪關系數(shù)據(jù)集上,與通用 Electra 等預訓練語言模型相比,CriElectra 在司法文本上的重訓過程使得學習到的詞向量蘊含更豐富的領域信息,F(xiàn)1 值提升 1.93%;與基于池化聚類的模型相比,膠囊網(wǎng)絡通過矢量運算能夠有效防止空間信息丟失、提高重疊關系的識別能力,使得 F1 值提升 3.53%。

基于刑事Electra的編-解碼關系抽取模型

  本文源自王小鵬; 孫媛媛; 林鴻飛, 計算機應用 發(fā)表時間:2021-07-28

  關鍵詞: 司法領域;關系抽取;預訓練語言模型;雙向長短期記憶網(wǎng)絡;膠囊網(wǎng)絡

  0 引言

  隨著智慧司法建設的推進,如何幫助辦案人員從海量的犯罪文書中獲取有用的信息成為了一項非常有意義的研究工作,司法領域的自然語言處理技術也因此受到了研究者的廣泛關注和重視,特別是對海量司法文書進行智能分析和處理已成為司法人工智能研究的重要內(nèi)容。關系抽取作為信息挖掘的基礎性工作,不僅可實現(xiàn)司法信息的獲取,還在司法問答、刑期預判和司法知識圖譜構建等任務中有重要應用。

  司法文書,是指司法機關制作的具有司法效力或司法意義的文書[1]。司法關系抽取則是在已知司法文書中具有司法屬性的名詞或短語實體基礎上,識別出實體之間的關系事實,據(jù)此構造三元組,如:[張三,攻擊關系,李四], “張三”“李四”是司法實體,他們之間的關系事實是攻擊關系。相比較于通用領域的關系抽取研究,司法領域關系抽取面臨以下問題和挑戰(zhàn):

  通用領域預訓練語言模型在司法領域的應用存在一定局限性。首先,司法文本是按照嚴格的模板進行撰寫的,相較于通用語料庫(如:維基百科語料),在文本結構上存在較大差異,此外,通用語料庫和司法文本語料庫的詞分布并不相同,因此很難確保通用領域預訓練語言模型在司法任務上的性能表現(xiàn)。

  司法文書中,存在許多同一實體對應多個關系的情況,這將嚴重混淆關系提取。如“被告人張三和被告人李四系鄰居。”描述中“張三”和“李四”從司法層次講是共犯關系,在社會層次中他們之間是鄰里關系。當數(shù)據(jù)集中關系重疊較多時,模型就很難清楚地識別出所有的關系標簽?,F(xiàn)有關系抽取模型使用的 MaxPooling[2]和詞級注意 [3]等方法雖然可以很好的將低層級語義合并生成高層級關系表示向量,使得模型在單標簽關系識別上表現(xiàn)優(yōu)異,但對于多重關系抽取,這種高層次的關系向量卻很難準確地表達標簽特征,進而影響性能。

  針 對 以 上 問 題 , 本 文 提 出 了 一 種 基 于 刑 事 Electra(Criminal-Efficiently learning an encoder that classifies token replacements accurately, CriElectra)的編、解碼關系抽取模型,解碼器由雙向長短期記憶網(wǎng)絡[4](Bidirectional Long Short-Term Memory, BiLSTM)和膠囊網(wǎng)絡[5](Capsule Network, CapsNet) 構 成 , 即 : CriElectra-BiLSTM-CapsNet , 簡 稱 CELCN。首先參考中文 Electra[6]的訓練方法,在一百多萬份刑事案件數(shù)據(jù)集上訓練得到了 CriElectra,然后在雙向長短期記憶網(wǎng)絡上加入 CriElectra 的詞特征進行中文文本的特征提取。最后利用膠囊網(wǎng)絡對特征信息進行矢量聚類,實現(xiàn)實體間的關系抽取。本文在自行設計并構建的故意傷害罪關系抽取數(shù)據(jù)集上進行實驗,模型的 F1 值可以達到 79.88%,相較于其它基線方法,CELCN 可以取得非常不錯的效果。本文主要有以下三個貢獻點:

  1) 基于司法業(yè)務需求和罪名特點,提出了一種側重于司法屬性和社會屬性的關系定義方案,并構建了故意傷害罪的關系抽取數(shù)據(jù)集;

  2) 提出了基于百萬刑事數(shù)據(jù)的預訓練語言模型 CriElectra,該預訓練語言模型能夠更有效的學習表示司法領域文書中的語義信息;

  3) 基于膠囊網(wǎng)絡進行高維矢量空間的特征聚類,能夠有效的解決數(shù)據(jù)集中多標簽關系的識別任務。

  1 相關研究

  1.1 關系抽取

  關系抽取一般可分為基于機器學習的方法和深度學習的方法?;跈C器學習的方法是以自然語言處理技術(Natural Language Processing, NLP)中的統(tǒng)計學語言模型為基礎,從分類的角度研究關系抽取,即根據(jù)各種語言學特征識別實體對于每個標簽的可能性,然后再通過基于統(tǒng)計模型的分類器進行關系的分類[7],這種方法可按照有無標注好的數(shù)據(jù)集分為有監(jiān)督、無監(jiān)督和弱監(jiān)督三種方法,其中有監(jiān)督的方法是指所有數(shù)據(jù)集都是通過人工標注形成的,該方法具有很高的準確性,但過分依賴標注的數(shù)據(jù)集,成本較大。無監(jiān)督方法不需要人工語料作為支撐,能自動識別文本中三元組,因此在處理大規(guī)模數(shù)據(jù)語料是具有其他方法無法比擬的優(yōu)勢,但缺少人工標注導致其準確率和召回率較低。弱監(jiān)督的方法是指根據(jù)少量已標注好的語料三元組,在未標注的語料中發(fā)現(xiàn)新的三元組,進而形成大規(guī)模的語料集,但由于噪聲等問題并未完全解決,其性能也受到了限制。基于深度學習關系抽取的方法,主要包括基于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)[8]的方法、基于循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)[9]的方法以及二者相結合的方法[10]。在此基礎上,Lu 等[11]引入 PCNN(Piecewise Convolutional Neural Networks)對傳統(tǒng)卷積神經(jīng)網(wǎng)絡的池化層進行改進,并使用句子級選擇注意力機制減輕錯誤標簽的影響,最終 F1 值的結果比基于多示例學習的方法高了 5%。Kiyavas 等[12]引入詞級別的注意力機制并結合 BiLSTM 對文本進行建模從而實現(xiàn)結果的提升。Luo 等[13]結合雙向 GRU(Gate Recurrent Unit)和 PCNN 模型方法實現(xiàn)對實體結構等信息的提取,在 NYT(New York Times)數(shù)據(jù)集上表現(xiàn)優(yōu)異。

  1.2 預訓練語言模型

  近年來,針對預訓練語言模型的研究發(fā)展迅猛,預訓練語言模型是一種動態(tài)詞向量表示方法,不同于靜態(tài)詞向量,該詞向量基于上下文信息表示單詞的語義知識,能夠很好的解決一詞多義的問題。在預訓練語言模型研究中,Peters 等[14] 提出的預訓練語言模型 ELMo(Embedding from Language Modeols),利用 BiLSTM 不僅解決了長距離信息丟失問題,還可對詞進行復雜特征(如句法和語義)和變化的語言語境下進行建模。2018 年,Devlin 等[15]提出自編碼語言模型 Bert(Bidirectional Encoder Representation from Transformers),不同于 GPT[16] (Generative Pre-Training)中單向的語義知識學習,它通過 Transformer 實現(xiàn)了對文本的雙向特征表示,并在 11 項自然語言處理任務中取得了最佳成績。2019 年,Yang 等[17]提出了自回歸預訓練模型 XLNet,在多項自然語言處理任務中獲得了顯著的提升。在具體的任務應用中,李妮等[18]、王子牛等[19]、尹學振等[20]、王月等[21]采用基于 Bert 的模型分別對通用領域、軍事領域、警情領域命名實體的識別進行了研究,實驗結果均有不同程度提高。但隨著預訓練語言模型的進一步發(fā)展,研究者發(fā)現(xiàn)由于文本結構、詞分布的差異,開放領域的預訓練模型在特定領域表現(xiàn)一般,于是 Lee 等[22] 提出了生物醫(yī)學領域的 BioBert(Biomedical Bert),實驗結果表明,BioBert 的 F1 值比 Bert 高了 2.8%,此外,2019 年清華大學公開了基于百萬刑事數(shù)據(jù)集和百萬民事數(shù)據(jù)集的刑事 Bert 和民事 Bert,從其公布的結果看,這兩種模型相較于通用 Bert 可以在司法領域任務上可實現(xiàn)快速的收斂。因此,特定領域語言模型的研究逐漸成為大家研究和探討的熱點。

  1.3 膠囊網(wǎng)絡

  為了改善 CNN 和 RNN 在特征學習過程中信息丟失問題,Hinton 等[23]首次提出了可自動學習部分與整體之間關系的膠囊網(wǎng)絡。2017 年 Sabour 等[5]基于膠囊網(wǎng)絡進一步提出一種可識別高度重疊數(shù)字的動態(tài)路由算法,該膠囊網(wǎng)絡算法在低層特征到高層特征的聚類過程中,不僅關注特征存在的可能性,還關注特征的空間分布信息,使模型獲取的信息更加全面,因此在圖像識別任務上取得了非常不錯的效果。2018 年Hinton等[24]提出了一種基于EM (Expectation Maximization) 算法的膠囊網(wǎng)絡,該方法將一維向量膠囊改進為二維向量膠囊,使得膠囊可以表示更多的特征信息。2018 年 Zhang 等[25] 將膠囊網(wǎng)絡引入關系抽取任務中,主要進行了兩部分的工作,首先在動態(tài)路由算法引進注意力值,其次,在邊界損失函數(shù)中設置了可學習閾值參數(shù),從而優(yōu)化了整個算法模型,在多標簽關系抽取數(shù)據(jù)集 NYT-10 上,F(xiàn)1 值可以得到 2%的提升,隨后,Zhang 等[26]將詞注意力機制與動態(tài)路由結合,提出了 Att-CapNet (Attentive Capsule Network)模型,進一步改進了膠囊網(wǎng)絡,最近,膠囊網(wǎng)絡也被逐漸應用于文本分類[27]和疾病分類[28]等 NLP 任務,且都取得了很好的性能表現(xiàn)和提升。

  2 模型結構

  CELCN 算法模型結構如圖 1 所示,模型包含三部分,基于 CriElectra 的預訓練層,基于 BiLstm 的特征提取層以及基于 CapsNet 的特征聚類層,模型首先通過 CriElectra 得到單個字符的動態(tài)語義向量表示,然后把字符向量輸入到 BiLSTM 模型,對其序列和層級建模以提取語義和結構特征,然后通過 CapsNet 對特征矩陣進行矢量空間的特征聚類,形成高層膠囊,再根據(jù)高層膠囊的模長預測關系標簽的可能性。

  2.1 基于 CriElectra 的預訓練層

  2.1.1 訓練 CriElectra

  Bert 在預訓練語言模型領域取得了非常好的成就,但 Bert 采用的 MLM(Mask Language Model)預訓練方式并不高效的,它只有 15%的 Token 對參數(shù)的更新有用,其他的 85% 不參與梯度更新,除此之外,預訓練階段與特征提取階段存在信息不匹配,因為下游任務的特征提取階段,并不會出現(xiàn) “[Mask]”這個詞,而在上游預訓練過程中卻使用“[Mask]” 替換 Token。于是 Clark 等[6]基于對抗網(wǎng)絡設計了預訓練模型 Electra,該模型提出了 RTD(Replace Token Detection)預訓練任務,與 MLM 方式不同,RTD 的預訓練目標是學習區(qū)分輸入的詞是否被替換,盡管引入了“[Mask]”,但是在梯度傳播的過程中,模型還需關注有沒有發(fā)生過替換,因此降低了 “[Mask]”的影響,在很大程度上緩解了 MLM 引起的信息不匹配的負面影響,此外,由于 RTD 在訓練過程中全部 Token 會參與參數(shù)更新,因此 Electra 訓練速度更快,其實驗結果還表明,在句對分類、閱讀理解等任務上的 Electra 性能要優(yōu)于 Bert,在自然語言推斷、句對分類任務上性能表現(xiàn)相當。

  基于 Electra 訓練更快、性能與 Bert 相當?shù)忍攸c,本文基于中文 Electra 提出了 CriElectra,訓練數(shù)據(jù)來源于中國裁判文書網(wǎng)公開的文書數(shù)據(jù),首先通過下載獲取百萬份刑事文書數(shù)據(jù),然后通過篩選形成 100 多萬份刑事案件數(shù)據(jù)集,其中所涉罪名包括盜竊、涉毒、交通駕駛罪等十類 469 個刑事罪名,地域包含 23 個省、5 個自治區(qū)、4 個直轄市。

  CriElectra 訓 練 示 例 如 圖 2 所 示 , 給 定 輸 入 序 列 1 2 { , , , }n Ε ? ? e e e ,由生成器 G 進行 MLM 任務預測屏蔽詞,即隨機屏蔽輸入序列中的詞生成帶有“[MASK]”的序列,然后通過 transformer 的結構編碼器得到一組包含上下文信息的向量 1 2 ( ) [ , ,..., ] G g g gn h h h h Ε ? ,再經(jīng)歸一化層預測屏蔽位置 gt 的詞,過程如下所示: p e softmax h G gt ( | ) ( ( ) ) E ? G gt E (1) 生成器訓練過程中的損失函數(shù)如下:

  L G gt ? p e ? E ? ? ? E (2) 判別器的目標是判斷輸入序列中的詞是否發(fā)生替換,即將生成器得到序列 1 2 { , , , }n D ? ? d d d 通過 Transfomer 結 構 的 編 碼 器 得 到 1 2 ( ) [ , ,..., ] D d d dn h h h h E ? , 再 經(jīng) sigmoid 層輸出,過程如下所示: ( , ) ( ( ) ) D dt sigmoid h E ? D dt E (3) 式(3)中 dt dn ? ,更具體地說,通過用生成器樣本替換屏蔽的標記來創(chuàng)建一個損壞的示例 corrupt E ,并訓練鑒別器來預測 corrupt E 中的哪些標記與原始輸入 E 相匹配,判別器訓練過程中的損失函數(shù)如下: 1 2 1 ( , ) E( ) n Disc Disc Disc t L ? G L L ? E ? ? ? (4) 1 ( )log ( , ) corrupt L I Disc ? ? ? E E E dt t D dt (5) 2 ( )log(1 ( , )) corrupt L I Disc ? ? ? ? E E E dt t D dt (6) 式(4)中 ? G 與 ? D 分別為生成器和判別器的參數(shù), I a b ( ) ? 為判別函數(shù),當滿足條件 a b ? 時,取 1,不滿足時為 0,CriElectra 訓練通過最小化生成器和判別器的交叉熵損失函數(shù)進行的,具體可以表示為: , ? min ( , ) ( , ) ? E E ? DG Loss G G D D L λL ? ?? ? (7) 由于生成器的體積是判別器的四分之一,為避免模型間損失失衡因此使用 λ =0.5 平衡生成器和判別器的損失。該模型 Pytorch 和 Tensorflow 版 本 在 之 后 將 會 開 源,供學者共同研究。

  2.1.2 CriElectra 應用

  CriElectra 預訓練語言模型旨在讓下游任務模型能夠使用更好的司法文本的詞表示,文本中句子可以表示成字符的集合 1 2 { }, , , n E ? ? e e e , n e 表示句子中第 n 個字符,其中 n?N 整個 CriElectra 進行向量矩陣轉化的過程可以表示為: ( , ) X ? CirElectra E ?CriElectra (8) 式 (8) 中 E 為 輸 入 到 模 型 的 句 子 向 量 表 示 , X ?R N d? Electra 為模型輸出的 CriElectra 向量矩陣,X 可以具體表示為 1 2 X ?{ }, ? n xx x , , ,? Electra 為 Electra 模型相關參數(shù)。

  2.2 基于 BiLSTM 的特征提取層

  特征編碼層所使用的模型為雙向的長短期記憶模型 BiLSTM,它是 RNN 的一種變體,它包含了一個門控記憶細胞來捕獲數(shù)據(jù)中的長期依賴關系,并能夠避免由標準 RNN 引起的梯度消失和爆炸問題。雙向長短期記憶循環(huán)模型由兩個不同方向的長短期記憶網(wǎng)絡(Long Short-Term Memory, LSTM)組成,兩個 LSTM 分別從前向和后向?qū)W習單詞的上下文信息,再將二者拼接起來,作為當前時刻的輸出,隱藏層狀態(tài)可以用以下公式描述: h h ,x n ? LSTM , ? n-1 n ? LSTM ????? ??????? ???? (9) h LSTM h x n ? ? n n ?1 , ,? LSTM ????? ??????? ???? (10) n n n h h h ? ???? ??? (11) 式(9)、式(10)式(11)中, dLSTM n h ?R ???? 和 dLSTM n h ?R ???? 分別代表前向和后向 LSTM 在位置 n 的隱藏層狀態(tài),? LSTM 為 LSTM 模型訓練參數(shù),? 代表拼接操作, 2 dLSTM n h ? ?R 。

  2.3 基于膠囊網(wǎng)絡的特征聚類層

  本文中膠囊網(wǎng)絡結構如圖 3 所示,將 BiLSTM 提取的特征 h 分割到低層膠囊 u d u?R 中,為保證膠囊的模長和為 1,經(jīng)非線性壓縮函數(shù) g 得到每個低階膠囊 utk ,具體過程如下所示: [ ; ; ; ] ' ' ' t t1 t1 tk h u u u ? ? (12) 2 2 ( ) 1 ' ' tk ' tk tk tk ' ' tk tk u u g u u u ? ?? u (13) 式(12)和式(13)中,? ? x y; 表示 x 和 y 垂直連接,表示計算向量的模長。通過動態(tài)路由算法實現(xiàn)低層膠囊 ui 與高層膠囊 Rj 之間的信息傳遞,偽代碼如算法 1 所示。其中, z 為路由的迭代次數(shù)。

  訓練過程中,通過最小化高層膠囊的邊際損失實現(xiàn)訓練。第 j 個高層膠囊的損失函數(shù) Lj 為: j j j L L L ? ?? ? ? (14) 2 max(0, ) j j j L Y m R ? ? ? ? (15) 2 (1 ) max(0,| ) j j j L Y R m ? ? ? ? ? (16) 式(14)、式(15)和式(16)中,若句子的關系為 Rj 高層膠囊對應的標簽,則Yj 值取 1,否則取 0,m ? =0.9 為上邊界, m ? =0.1 為下邊界, ? ? 0.5 ,模型的全部損失是所有高層分類膠囊損失之和。

  算法 1 動態(tài)路由算法偽代碼輸入 低層膠囊 ui ,高層膠囊 Rj ,迭代次數(shù) z 輸出 高層膠囊 Rj 1) for all capsule ui and capsule Rj do 2) 0 ij b ? 3) end 4) for z iterations do 5) ( ) w softmax b i ? i 6) j ? ( ) ? ij j i i R W u g w 7) ij ij j i j b b ? ?W u R 8) end 9) Return Rj

  3 實驗

  3.1 數(shù)據(jù)集

  律文本不同于其他領域文本,其每個罪名的所涉及的概念與構成、罪名認定以及立案量刑的標準均不一致,所涉及的司法文書實體分布、業(yè)務也各有側重。介于以上特性,目前采用統(tǒng)一模型抽取所有司法文書當中的關系較為困難,因此本文選取故意傷害罪司法文書作為關系抽取的研究對象。

  由于故意傷害罪關注的核心要素是人和物,本文在參考通用領域人物關系定義的基礎上,根據(jù)《刑法》中對社會屬性和司法屬性的關系需求,從“人”與“人”、“人”與“物” 兩種粗粒度出發(fā)定義了 9 種分類關系,具體的:

  親屬關系:指兩個自然人之間存在直系親屬或旁系親屬關系;

  同事關系:指兩個自然人在同一個公司工作或同一時間從事同一份工作;

  鄰里關系:指兩個自然人生活在同一個社區(qū)、同一個單元或同一個村;感情關系:指兩個自然人之間未存在法律認可的情侶關系,如戀愛、情人關系;施動關系:指兩個自然人是被告人和被害人的關系;共犯關系:指兩個自然人同為被告人;使用關系:在一起案件中,以某作案工具為中心,某自然人使用了該作案工具做出了攻擊行為,則該自然人與該作案工具之間是使用關系;攻擊關系:在一起案件中,以某作案工具為中心,該作案工具攻擊了某個自然人,則該自然人與該作案工具之間是攻擊關系;擁有關系:在一起案件中,存在的違禁作案工具的所屬關系,違禁作案工具指槍、爆炸物品、劇毒物品等物品或工具;除此之外,還定義了一種 NA 關系,表明“人”與“人”、 “人”與“物”之間不存在關系或者存在的關系不屬于已定義的 9 種關系。

  本文標注的故意傷害罪的文書內(nèi)容來自于中國裁判文書網(wǎng)的公開文書數(shù)據(jù)。利用規(guī)則對犯罪事實描述部分進行抽取,再由志愿者進行手工標注,具體的數(shù)據(jù)分布如圖 4 所示,除此之外,由于司法文本的特殊性,其中關系重疊的語料占比為 7.66%,同時,為了更好的描述案件中實體間的邏輯指向關系,構建過程中對關系的方向性也進行標注,如三元組和,它們的實體對都為 E1 和 E2,但由于實體在文中出現(xiàn)前后順序不一樣,因此兩實體之間的關系指向會發(fā)生變化,本文稱 R1 和 R2 互為反向關系。具體的數(shù)據(jù) 集 會 再 經(jīng) 整 理 和 擴 充 后 進 行 開 源,供學者共同研究。

  3.2 實驗設置

  對于 CriElectra 預訓練語言模型,分別采用以下幾種模型方法進行實驗對比:

  為了評估 BiLSTM 的特征提取的能力,分別采用以下幾種模型方法進行實驗對比: CERCN : 特 征 提 取 層 使 用 RNN , 模 型 結 構 為 CriElectra-RNN-CapsNet; CECCN : 特 征 提 取 層 使 用 CNN , 模 型 結 構 為 CriElectra-CNN-CapsNet; CECN : 未 使 用 特 征 提 取 層 , 模 型 結 構 為 CriElectra-CapsNet;對于膠囊網(wǎng)絡,分別采用以下幾種模型方法進行實驗對比: CELAP:特征提取層采用 MaxPooling 特征聚類層[2],模型結構為 CriElectra-BiLSTM-MaxPooling; CELMP:特征提取層采用 AvgPooling 特征聚類層,模型結構為 CriElectra-BiLSTM-MaxPooling。

  3.3 實驗結果及分析

  實驗中,關系抽取模型的性能由從非結構化文本中關系標簽的最終提取結果的精確率(Precision)、召回率(Recall)以及 F1 值(F1-score)來進行評估。評價指標的計算方式如下所示: correct_num precision = predict_num (17) correct_num recall = true_num (18) 1 2* precision* recall F = precision+ recall (19) 式(17)、(18)和(19)中, correct_num 表示正確預測的標簽個數(shù), predict_num 表示預測的標簽總數(shù),precision 表示精確率,true num _ 表示實際正確的標簽總數(shù),recall 表示召回率。

  CELCN 與 ELCN 訓練的 F1 曲線如圖 5 所示,可以看出,訓練前期基于CriElectra的模型相較于基于中文Electera的模型,收斂更快,當模型趨于穩(wěn)定時,CELCN 模型的 F1 值更高,性能更優(yōu),因此可表明,相較于中文 Electra,在故意傷害罪關系抽取數(shù)據(jù)集上,CriElectra 預訓練模型能夠更好的提供司法文本中詞的向量表示,使得關系抽取的結果更優(yōu)。

  為了進一步的研究 CriElectra 與別的司法領域預訓練語言模型之間的性能差異,分別基于清華公開的刑事 Bert 和民事 Bert 展開實驗,CELCN 與 XBLCN、MBLCN 訓練過程中的 F1 值曲線如圖 6 所示,可以看出,三條曲線當中,民事 Bert 的不管是在收斂速度還是最終結果,表現(xiàn)都很一般,而 CriElectra 與刑事 Bert 相比,性能表現(xiàn)相當,但由于 CriElectra 在訓練構建過程中,所花費時間成本更低,因此,基于 Electra 構建特定領域預訓練模型,是一個很好的研究方向。

  以 CriElectra 預訓練模型、中文 Electra、刑事 Bert 以及民事 Bert 為預訓練層實驗的詳細準確率、召回率和 F1 值如表 1 所示,可以看出使用 CriElectra 相較于使用中文 Electera,準確率可以提升 1.54%,召回率可以提升 1.17%,F(xiàn)1 的提升可以達到 1.93%,效果顯著。對比于使用民事 Bert,CELCN 在準確率、召回率更高,F(xiàn)1 值得可得到 3.3%的提升。跟刑事 Bert 相比,性能表現(xiàn)相當。這也證明了 CriElectra 能夠更好的學習到法律文本的詞向量表示。

  為研究 BiLSEM 的文本特征提取表現(xiàn),本文分別基于 RNN、CNN 做了對比試驗,同時為了解 BiLSTM 是否對模型的性能有所幫助,還進行了 CECN 模型實驗,實驗的詳細結果如圖表 1 所示,從表中可以獲悉,BiLSTM 相較于 RNN、 CNN 能夠取得更好的 F1 值,這是因為本文所用數(shù)據(jù)集語料句子長度較長,而 RNN 和 CNN 的長距離學習能力較弱。對于 CECN 模型,BiLSTM 能夠給模型帶來 0.41%的性能提升,盡管提升有限,但在一定程度上表明基于 BiLSTM 的特征提取層能夠使模型更好的學習到文本的特征表示。

  為研究膠囊網(wǎng)絡的性能表現(xiàn),本文分別進行了基于 Maxpooling 的特征聚類層和基于 Avgpooling 的特征聚類層的實驗,其中 CELCN、CELMP 和 CELAP 在實驗過程中的 F1 曲線如圖 7 所示,從圖像可以看出,盡管膠囊網(wǎng)絡的收斂速度較慢,但實驗的最終結果表明 CELCN 的性能要明顯優(yōu)于 CELMP 和 CELAP。

  實驗 CELCN 與 CELMP、CELAP 更詳細的準確率、召回率和 F1 值的實驗對比結果如圖表 2 所示,其中 CELCN 的準確率、召回率和 F1 值分別為 77.26%、82.68%和 79.88%,相較于 CELMP 和 CELAP,F(xiàn)1 值分別提升了 3.53%和 3.73%,表明了膠囊網(wǎng)絡在特征聚類方面的優(yōu)勢。

  為了進一步的研究膠囊網(wǎng)絡帶來的性能提升,本文從數(shù)據(jù)集中抽取一部分多標簽關系數(shù)據(jù)進行測試,實驗的測試結果如表 2 所示,其中,CELCN 的準確率、召回率和 F1 值分別為 43.88%、41.32%和 42.56%,比 CELAP 的 F1 高 0.26%,比 CELMP 的 F1 高 3.91%,進一步證明了膠囊網(wǎng)絡在多標簽關系抽取任務中的性能優(yōu)勢。

  4 結語

  本文針對司法領域提出了一種新的司法預訓練模型 CriElectra,然后利用中文通用的人物關系語料,結合司法知識和人工標注方法構建以被告人、被害人以及作案工具為中心的故意傷害罪關系抽取數(shù)據(jù)集,提出了 CELCN 模型,很好的解決故意傷害罪關系抽取語料中一對實體多種關系的情況,為司法領域中文關系抽取研究提供了技術基礎。在未來的工作中,將基于本文中 CELCN 的研究方法,進一步開展多罪名的關系抽取研究。

主站蜘蛛池模板: 日韩欧美自拍 | 亚洲图片偷拍区 | 国内精品七七久久影院 | 一区二区三区四区免费视频 | 女人张开腿男人猛桶视频 | 免费观看欧美一级特黄 | 综合另类 | 亚洲国产伦理 | 欧美精品色视频 | 午夜免费理论片a级 | 欧美成人精品高清在线观看 | 呦女精品 | 成人在线黄色 | 亚洲成a人片在线看 | 日本波多野结衣在线 | 亚洲日本激情 | 全部免费a级毛片 | 天天看片欧美 | 在线观看成年人免费视频 | japonensis国产福利| 欧美日韩a∨毛片一区 | 国产91啦| 欧美性精品videofree | 久久是精品 | 国产成人亚洲精品老王 | 日韩免费一区二区三区在线 | swag国产精品一区二区 | 最新中文字幕一区二区乱码 | 国产精品久久一区 | 久久99精品视频在线在线观看 | 91精品欧美一区二区综合在线 | 欧美一级欧美一级高清 | 美女视频黄色网址 | 国产第一区二区三区在线观看 | 日韩欧美不卡一区二区三区 | 九九在线偷拍视频在线播放 | 亚洲视频一区在线观看 | 一区二区三区在线观看免费 | 亚洲视频免费在线看 | 视频在线色 | 久久伊人男人的天堂网站 |