摘要:文本數據中的實體和關系抽取是領域知識圖譜構建和更新的來源.針對金融科技領域中文本數據 存在重疊關系、訓練數據缺乏標注樣本等問題,提出一種融合主動學習思想的實體關系聯合抽取方法.首 先,基于主動學習,以增量的方式篩選出富有信息量的樣本作為訓練數據;其次,采用面向主實體的標注策 略將實體關系聯合抽取問題轉化為序列標注問題;最后,基于改進的BERT-BiGRU-CRF模型實現領域實 體與關系的聯合抽取,為知識圖譜構建提供支撐技術,有助于金融從業者根據領域知識進行分析、投資、 交易等操作,從而降低投資風險.針對金融領域文本數據進行實驗測試,實驗結果表明,本文所提出的方法 有效,驗證了該方法后續可用于金融知識圖譜的構建.
關鍵詞:領域文本;領域知識圖譜;實體關系聯合抽取;主動學習;序列標注
引 言
隨著海量數據處理和人工智能技術的快速發展,以數據密集型為主導的研究范式為推動各領域
數字化轉型提供了新的研究思路.知識圖譜(Knowledge Graph, KG)作為一種用圖模型描述知識和建 模世界萬物之間關聯關系的方法,通過一系列形如〈頭實體,關系,尾實體〉的三元組對知識進行結 構化表示[1],為跨領域知識融合提供了解決方案.近年來,在搜索引擎、推薦計算和智能問答[4]等 KG下游應用的驅動下,以及DBpedia[5]、YAGO[6]和Freebase[7]等跨領域知識庫的誕生,研究人員對 從非結構化數據源特別是文本數據中挖掘高質量的領域知識產生了極大興趣[8].例如,隨著金融科技 進入智能時代,面對大規模、多來源、不規則的金融文本數據,通過構建金融領域KG能夠高效利用 各個數據之間的聯系,實現金融與信息科技深度融合,為預測市場趨勢、支持政府監管市場、防范金 融風險提供智能化解決方案[9].
實際上,大量的文本數據是KG構建和領域知識更新的來源,如何有效地從文本數據中抽取實體 和關系,是KG構建、更新和推理的重要基礎.例如,金融領域對數據依賴性較大,對數據分析的準確 性要求很高,股票的價格可以視作市場對金融新聞和事件的反映,通過有效分析相關金融新聞和事件 文本數據,并將其表征為結構化知識,能夠直觀有效地展示金融領域覆蓋實體之間關聯對股票價格的 影響,對用戶做出明智的投資決策至關重要.從這個角度來說,只有高質量的金融知識圖譜中的知識 有實際應用價值.因此,本文研究從領域文本數據識別命名實體和聯合抽取實體關系的方法,為領域 KG的構建和增量更新提供技術支撐.
領域文本數據是對特定領域知識的描述和記錄,具有以下特點.
(1)領域文本數據的標注樣本極其缺乏,對數據的標注往往需要專家的指導和協助,導致標注語料 庫的構建成本極高.因此,如何以盡可能少的標注樣本量實現模型訓練,是本文研究面臨的挑戰.
(2)領域文本數據中實體分布密度高且實體間存在重疊關系.數據實例圍繞主實體展開具體描述, 如一個金融數據實例描述一家公司的創始人、股東、注冊地址等信息,一個公司實體同時與創始人、 股東等實體存在關系.因此,如何有效地抽取領域文本數據中實體和實體間的重疊關系,是本文研究 面臨的另一個挑戰.
主動學習算法[10]旨在針對模型主動參與樣本選擇的情形,優先標注并訓練那些相對有價值的樣 本,從而達到以盡可能少的標注樣本量達到模型預期性能的目標.為了從領域文本數據中選取待標注 樣本,本文提出一種基于主動學習的待標注數據采樣方法,用以篩選出富有信息量的樣本,從而降低 標注成本.
為了有效地抽取實體和實體間的重疊關系,本文提出一種考慮主實體的序列標注策略,將實體關 系聯合抽取問題轉化為序列標注問題.基于雙向長短期記憶網絡(Bidirectional Long Short-Term Memory, BiLSTM)[11]可同時獲取上下文信息并存儲記憶,從而被廣泛地應用于基于序列標注的實體 關系聯合抽取任務;但是基于BiLSTM改進的雙向門控循環單元(Bidirectional Gated Recurrent Unit, BiGRU)[12]不僅具備長時序依賴能力和更快的運行效率,而且簡化了 BiLSTM復雜的結構.為緩 解BiGRU模型在訓練過程中出現的過擬合問題以及梯度爆炸問題,本文通過改進BiGRU提出 BiGRU*.首先提出TaLU激活函數替換傳統GRU的雙曲正切(tanh)激活函數,從而解決因tanh函 數的軟飽和性而導致的梯度消失問題;其次,結合層標準化(Layer Normalization, LN)技術,使模型 在沒有發生嚴重梯度爆炸的情況下提高網絡性能,從而獲得改進的GRU*,最后使用BERT-BiGRU*- CRF序列模型來對金融領域文本數據集進行實體關系聯合抽取.
綜上所述,本文的工作主要包括以下幾個方面.
(1)針對垂直領域數據缺乏的問題,融合主動學習思想,提出一種基于主動學習的待標注數據采樣 方法.通過評估樣本的價值與樣本的相似性來選擇標注樣本,從未標注數據池中增量地采樣出富有信 息的樣本.
(2)通過將實體識別和關系抽取兩個子任務聯合起來,并將其建模為序列標注,提出一種基于 BERT-BiGRU*-CRF的實體關系聯合抽取模型,用于對垂直領域文本的實體和關系同時進行抽取.
(3)基于金融領域和少數民族領域文本數據對本文提出的方法進行實驗測試和性能分析,實驗結 果表明,本文提出的基于BERT-BiGRU*-CRF的實體關系聯合抽取方法,效果均優于其他傳統的序 列標注模型.
1相關工作
傳統的實體關系抽取一般采用流水線方法,該方法將命名實體識別和關系抽取分成兩個獨立的 子任務,在實體識別已經完成的基礎上直接進行實體之間的關系抽取.例如,文獻[13]和文獻[14]首 先識別文本中的實體,然后抽取出文本中實體之間的關系.盡管流水線方法更加靈活且易于建模,但 實體識別階段產生的錯誤將傳播到關系抽取階段,影響關系抽取的性能,將實體識別與關系抽取分開 執行,忽略兩個子任務之間的聯系,若識別到的實體間不存在語義關系,無法剔除冗余實體對.
相比傳統的流水線方法,實體關系聯合抽取方法采用一個聯合模型同時識別出實體和關系類型. 根據建模對象不同,實體關系聯合抽取方法分為參數共享和序列標注兩類.參數共享方法是分別對實 體和關系進行建模,例如,Miwa等[15]采用參數共享的方式來對實體和關系進行聯合提取,將BiLSTM 與樹狀LSTM用于文本的建模任務,BiLSTM完成對實體的提取,樹狀LSTM實現對于關系的分類, 通過兩個模型的互相堆疊來實現參數的共享.序列標注方法將實體與關系聯合抽取任務轉換成序列 標注問題,基于實體關系的聯合標注策略進行建模,直接得到實體-關系三元組.例如,Zheng等[16]首 次提出一種特殊的標注方案,將實體關系聯合抽取問題轉化為序列標注問題,并在通用領域的知識抽 取中取得了較好的效果,但無法解決重疊關系問題.為了能更好地解決可能存在的實體關系三元組重 疊問題,Zeng等[17]提出了一種基于復制機制的端到端神經網絡模型,采用了一種編碼器解碼器架構 的實體關系抽取模型,首先完成對關系的提取,然后通過復制機制,依次復制主實體和客實體,解決了 實體關系重疊的問題,但該模型未考慮實體對之間存在多種關系的問題.
主動學習是一種用于機器學習的訓練數據篩選方法,相較于人工操作,它只需花費較少的時間即 可自動找到富有信息量的樣本來構建更好的數據集,進而以較低的標注代價實現模型較高的性能.研 究者們依據不同的樣本選擇標準開發出一系列主動學習的方法,Houlsby等[18]提出了一種貝葉斯不一 致主動學習算法,其中采樣函數通過訓練樣本關于模型參數的互信息來進行不確定性度量.Tang等[19] 提出一種自定步長的主動學習方法,該方法一方面考慮了樣本的信息量和代表性,選取的樣本對模型 的改進具有較高的潛在價值;另一方面,利用樣本的易用性,使模型能夠充分利用樣本潛在價值.近年 來,隨著深度學習模型的發展,主動學習也應用于序列標注任務.Tran等[20]針對Twitter數據進行命 名實體識別問題,提出了一種將自學習和主動學習相結合的方法,降低了標注成本.Shen等[21]通過將 主動學習與一種基于深度學習的輕量級命名實體識別模型相結合,減少25%的訓練數據量.雖然上述 方法在解決樣本標注問題上取得了很大進展,但這些方法往往只關注低置信度的不確定樣本,未能綜 合考慮樣本的價值與代表性.
推薦閱讀:面向人工智能的電子信息工程專業建設研究
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >