国产视频www-国产视频xxx-国产视频xxxx-国产视频一二-一本大道香蕉中文日本不卡高清二区-一本久久精品一区二区

樹人論文網一個專業的學術咨詢網站!!!
樹人論文網

金融領域中文命名實體識別研究進展

來源: 樹人論文網發表時間:2022-03-15
簡要:摘要:命名實體識別(Named Entity Recognition, NER)作為自然語言處理的基本任務之一,一直以來都 是國內外研究的熱點.隨著金融互聯網的快速發展,迄今為止,金融領域中文NER不斷進步,并得以應

  摘要:命名實體識別(Named Entity Recognition, NER)作為自然語言處理的基本任務之一,一直以來都 是國內外研究的熱點.隨著金融互聯網的快速發展,迄今為止,金融領域中文NER不斷進步,并得以應用 到其他金融業務中.為了方便研究者了解金融領域中文NER方法的發展狀況和未來發展趨勢,進行了一 項相關方法的研究和總結.首先,介紹了 NER的相關概念和金融領域中文NER的特點;然后,按照金融領 域中文NER的發展歷程,將研究方法分為基于字典和規則的方法、基于統計機器學習的方法和基于深度 學習的方法,并詳細介紹了每類方法的特點和典型模型;接下來,簡要概括了金融領域中文NER的公開數 據集和工具、評估方法及其應用;最后,向讀者闡述了目前面臨的挑戰和未來的發展趨勢.

  關鍵詞:自然語言處理;中文命名實體識別;金融領域

  引 言

  在日常生活中,隨著科技的進步和互聯網的快速發展,網頁新聞、研報、論壇、公眾號、微博等信 息不斷實時更新,使得網絡信息量呈爆炸式增長,海量的結構化、半結構化、非結構化文本數據為自 然語言處理任務提供了數據來源,并促進自然語言處理技術的快速發展.面對結構各異、信息冗雜的

  文本數據,如何提取出關鍵性的有價值信息,是一項有意義的科研工作,信息抽取技術便應運而生.命 名實體識別作為信息抽取的子任務之一,是指從文本中識別出實體及其類別,這些實體類型包括人 名、地名、機構名、專有名詞和時間等.同時,作為自然語言處理中的關鍵技術之一,命名實體識別為 其他自然語言處理任務,諸如信息檢索、知識問答系統、文本摘要、知識圖譜、關系抽取等奠定了基 礎,因此得到國內外科研工作者的廣泛關注.

  命名實體識別的研究可以追溯到1991年,Rau[1]最初開展的是從文本中識別并抽取企業名稱的工 作,隨后有研究者將專有名詞也加入有待識別實體.美國NIST自動內容抽取(Automatic Content Extraction, ACE)評測中根據實體在文本中的引用把它分為命名性指稱、名詞性指稱和代詞性指稱. “命名實體”(Named Entity, NE)這一術語是在MUC-6中提出的,是針對ACE中的“名詞性指稱”稱 呼,后來MUC-6組織了 NERC這項評測任務,即命名實體識別和分類(Named Entity Recognition and Classification, NERC).人們將人名、地名和組織機構名這3類實體進一步細化,例如,將地名細 化為洲、國家、城市、州、自然景觀區域等.在計算自然語言學習會議(Conference on Computational Natural Language Learning,CoNLL)評測會議中擴大了專有名詞的范圍,如書籍名、電影名、產品 名、醫藥名等[2]. NER發展至今,已經衍生了許多解決該任務的方法,模型效果也在逐漸提升,研究語 言包括但不限于英語、中文、阿拉伯語、德語、法語等.NER的應用已經滲入商業、金融、電子病歷、 網絡安全、生物醫學、軍事、生態治理、農業等多種垂直領域中.

  自21世紀初期,我國金融科技行業逐漸由手工轉為互聯網金融信息化,人工智能技術與金融業 務不斷融合,許多學者投入通過命名實體識別將文本和金融業務中的實體信息關聯起來的科研工作 中,其科研成果為用戶提供了更優質的金融智能化服務[3].相比于通用領域中文NER,金融領域中文 NER除了人名、地名、機構名的識別以外,還包含屬于專業領域的金融實體,如金融公司名、公司名 簡稱、金融產品名稱、金融項目名稱、金融專業名詞等.金融領域中文NER的新挑戰在于3點.其一 是組織機構名的識別:金融文本中的組織機構名長度變化大,并且機構名實體中經常含有人名、地名 和未登錄詞,構成嵌套實體問題;對于同一個機構的表達方式多樣,從全稱中抽取個別字組成新的不 同簡稱,甚至有一些網絡昵稱,如騰訊的昵稱為“鵝廠”;金融領域的組織機構名的命名規則變化多樣, 沒有統一的格式進行約束.其二是金融術語的識別:金融術語是一種復雜類型實體并且存在較多的新 實體,常用的分詞工具難以較好地切分專業名詞的邊界;金融文本中經常出現中文、英文和數字混合 組成的實體名;術語的口語化表述方式造成歧義識別;領域性含義的實體,如軌道、杠桿、板塊等.其 三是缺乏實體豐富且有質量的金融領域數據集供實驗研究.隨著互聯網日新月異的變化,金融實體的 數量也在不斷大量增長,并且金融實體在文本中內容分散、數據稀疏、無結構化等特點,使得通用領 域的NER模型直接應用在金融領域中文NER數據集上的效果不顯著,需要根據金融文本特征探索 新方法.

  近年來,有不少文獻對NER的國內外研究方法進行了梳理.Li等詳細整理了針對英文語料的 NER方法,尤其是基于深度學習的模型;李嘉欣等問詳細整理了針對中文語料的NER方法;Nadeau 等[6]主要介紹了統計學習方法在NERC中的應用.在金融領域中,中文命名實體識別作為金融文本的 其他自然語言處理任務的基石,用科學技術促使金融業務變得更加智能化.然而,針對中文命名實體 識別在金融領域中應用的綜述幾乎沒有,這促使本文進行一項有關金融領域中文命名實體方法的調 查,闡述相關技術的研究現狀,梳理并總結現有科學技術在金融領域中文NER中的效果,以發現金融 領域中文NER仍然存在的問題以及其他可探索的研究方法.

  本文深入調查了中文命名實體識別在金融領域中的應用.首先介紹NER的有關概念及其在金融 領域中的特點,然后將金融領域中文NER方法分為3大類:基于規則和字典的方法、基于統計機器學 習的方法、基于深度學習的方法.基于深度學習的方法按照模型的訓練模式分為單任務學習和多任務 聯合學習,對金融領域中文NER公開數據集和工具進行簡單介紹,之后詳細闡述有關的評估方法.此 外,本文還搜集了金融領域命名實體識別的應用,最后介紹金融領域中文NER仍然面臨的挑戰和未 來的發展方向,并對本文做出總結.

  1概念

  首先介紹NER的有關概念,包括NER的定義、NER的標注方法、金融領域中文NER的特點.

  1.1 NER的定義

  NER,即命名實體識別,是指從非結構化的自然語言文本中識別出具有特定意義的實體并將這個 實體歸為預先設定好的類別中實體通常代表一個具體的事物,通用領域中的實體主要包括人名、地 名、機構名、專有名詞、時間、日期和貨幣等.

  NER的形式化定義是指給定一段文字序列(叫,奶,..+,叫),識別出1組元組1個 元組代表1個實體,其中叫表示1個輸入的字或詞,is表示實體的開始下標,ie表示實體的結束下標, 尤表示實體的類型[4].如圖1所示是1個NER任務示例,對給定的序列通過NER識別輸出4個實體, 分別是“一·季度”(Time)、“上海”(Location)、“北京"(Location)和“浙江"(Location).

  通常把傳統的NER當作序列標注任務處理,即每個字都被打上一個對應的標簽.根據實體之間 的嵌套關系,衍生出嵌套NER任務'如“上海市人民政府”是一個機構實體,但“上海市”是一個地名 實體.根據實體所屬的類別集合,又衍生出細粒度實體分類任務[9],實體所屬的類別之間具有層級關 系.例如,人名實體按照行業分為教育工作者、醫者、藝術家等,教育工作者按照職稱又分為教授、副 教授、研究員等.而本文不對后兩者做過多介紹,主要關注的是傳統的NER任務.

  1.2 NER的標注方法

  最常見的標注方法有BIO、BIOES、BMES,方法中各個字符所代表的含義如表1所示.

  1.3金融領域中文NER的特點

  金融領域是一個具有高度專業性的領域,很多詞匯不能從字面意思理解,需要結合金融的背景和 語境去理解其背后的特殊含義,自然語言處理的所有子任務在金融領域中都有一個獨特的理解方式. 金融具有成本低、效率高、覆蓋面廣、風險高的特點,命名實體識別作為自然語言處理最基礎的任務 之一,識別效果嚴重影響下游任務的效果,所以在金融領域中,命名實體識別結果是否準確間接決定 著金融經濟產業鏈的效益.相對于通用領域的中文NER,本文總結了金融領域中文NER的主要特點 并將其歸為3大類.

  (1)文本數據量大,內容復雜,更新快.金融經濟發展迅速,互聯網金融的時代下,每日不斷更新大 量的實時新聞,文本內容質量參差不齊,不同來源的報道表述格式不一,而且里面還會出現大量冗余 信息,使得很難全部識別出其中的實體.

  (2)異常的表達方式,專業名詞多.

  a)金融是一個專業背景強的領域,金融領域的術語往往有著特殊的含義,即使是人工,有時候也 需要具有專業背景的人員才能理解,比如產品實體“對沖基金”“白騎士”等,分詞工具難以準確分詞.

  b)高頻存在不規則的實體縮寫,如“中國農業銀行股份有限公司”是一個公司名,而“農業銀行” “農行”兩個簡稱也是一個公司名.

  推薦閱讀:碳金融相關外文文獻研究及對雙碳目標的建議

主站蜘蛛池模板: 女人张开腿让男人操 | 国产精品黄网站 | 成年人免费网站视频 | 久久91精品国产91久久小草 | 中文字幕在线观看91 | 亚洲综合精品一二三区在线 | 午夜宅宅宅影院在线观看 | 久久综久久美利坚合众国 | 国产成人综合日韩精品婷婷九月 | 欧美极品第1页专区 | 亚洲天堂网视频 | 欧美人与z0z0xxxx| 亚洲精品在线播放视频 | аⅴ资源天堂8在线 | 中文字幕欧美一区 | 国产成人毛片毛片久久网 | 视频一区视频二区在线观看 | 久久久免费观成人影院 | 久草视频福利在线 | 69视频成人 | 中文字幕成人 | 91国语对白| 99精品视频在线这里只有 | 91精品欧美综合在线观看 | 97在线免费| 9999久久 | 日韩欧美一区二区在线 | 九九99 | 国产精品视频视频久久 | 国产91页 | 男人桶女人逼 | 亚洲三级网址 | 午夜三级a三点 | 精品国产品国语在线不卡丶 | 玖玖精品在线视频 | 成年女人毛片免费视频 | 国产高清视频免费在线观看 | 在线观看亚洲免费视频 | 日本在线观看免费视频 | 欧美毛片aaa激情 | 色老头久久网 |