国产视频www-国产视频xxx-国产视频xxxx-国产视频一二-一本大道香蕉中文日本不卡高清二区-一本久久精品一区二区

SCI期刊 | 網(wǎng)站地圖 周一至周日 8:00-22:30
你的位置:首頁 >  生物醫(yī)學(xué)論文 ? 正文

生物醫(yī)學(xué)多元化命名分辨分析

2021-4-9 | 生物醫(yī)學(xué)論文

本文作者:馬瑞民 馬民艷 單位:東北石油大學(xué)數(shù)據(jù)庫理論與技術(shù)科研室

生物醫(yī)學(xué)的快速發(fā)展,產(chǎn)生了大量的生物醫(yī)學(xué)數(shù)據(jù)。這些生物醫(yī)學(xué)數(shù)據(jù)有的是以結(jié)構(gòu)化的形式存在于數(shù)據(jù)庫中,例如基因序列、基因微陣列實驗數(shù)據(jù)和分子三維結(jié)構(gòu)數(shù)據(jù)等;有的生物醫(yī)學(xué)數(shù)據(jù)以非結(jié)構(gòu)
化的形式被記載在各種生物醫(yī)學(xué)文獻(xiàn)中。從生物醫(yī)學(xué)文獻(xiàn)中發(fā)掘出隱含的生物醫(yī)學(xué)知識,是生物醫(yī)學(xué)信息抽取的重要意義所在。生物醫(yī)學(xué)命名實體識別是生物醫(yī)學(xué)信息抽取的一項重要基本任務(wù)之一,它
主要是從醫(yī)學(xué)文獻(xiàn)中發(fā)現(xiàn)基因、蛋白質(zhì)、DNA、RNA等生物實體。生物醫(yī)學(xué)命名實體識別的研究具有一定的艱巨性,主要是因為生物文獻(xiàn)中實體命名不規(guī)范、相同的詞或者短語表示不同類別命名實體等,
給研究帶來了一定的困難。

目前,生物醫(yī)學(xué)實體識別的方法主要有基于字典、基于規(guī)則和基于機(jī)器學(xué)習(xí)的方法。生物醫(yī)學(xué)命名實體識別研究初期,最常使用的是基于字典的方法。如Krauthammer等[1]利用DNA和蛋白質(zhì)序列比較工具
BLAST識別生物醫(yī)學(xué)命名實體。上述方法的優(yōu)點是簡單實用,但由于新的生物醫(yī)學(xué)命名實體不斷出現(xiàn),所以基于字典的方法對于自由文本的生物醫(yī)學(xué)命名實體識別效果不佳。Olsson等[2]提出了基于規(guī)則
的方法識別生物醫(yī)學(xué)命名實體,F(xiàn)值達(dá)到了67%。與基于詞典的方法比較,基于規(guī)則方法的識別性能有所增強(qiáng),但它需花費大量人工勞動、且可移植性差。基于機(jī)器學(xué)習(xí)的方法可以判別生物醫(yī)學(xué)命名實體
數(shù)據(jù)庫中未包含的實體,方法較為靈活。該方法對訓(xùn)練數(shù)據(jù)規(guī)模、質(zhì)量以及特征選取等方面的因素具有很強(qiáng)依賴性,所以,此方法對于生物醫(yī)學(xué)命名實體識別性能提高的研究具有很強(qiáng)挑戰(zhàn)性。本文將采
取有效的機(jī)器學(xué)習(xí)算法,結(jié)合多種策略,以期提高生物醫(yī)學(xué)命名實體識別的識別性能。

1算法

目前主要應(yīng)用在生物醫(yī)學(xué)命名實體的機(jī)器學(xué)習(xí)方法有多種。文獻(xiàn)[3~6]中分別提出基于隱馬爾可夫模型、決策樹、支持向量機(jī)、最大熵等方法,這些方法把詞性、詞形等特征融入到機(jī)器學(xué)習(xí)模型中,利
用訓(xùn)練得到的學(xué)習(xí)模型從生物醫(yī)學(xué)文本集合中識別出指定類型的名稱。雖然取得了一定成果,卻也具有一定的不足,如識別性能不高、多種條件約束、識別策略單一化等。條件隨機(jī)域機(jī)器學(xué)習(xí)算法在自
然語言處理領(lǐng)域中有著非常顯著的優(yōu)勢,目前已成功應(yīng)用到詞性標(biāo)注、語塊識別和新聞領(lǐng)域的命名實體識別中,且表現(xiàn)出了非常好的效果。該模型的特性表明它非常適用于生物醫(yī)學(xué)領(lǐng)域的命名實體識別
研究。鑒于此,本文采用條件隨機(jī)域算法對生物醫(yī)學(xué)命名實體識別進(jìn)行研究。條件隨機(jī)域(ConditionalRandomFields,CRFs)是Lafferty等人于2001年提出來的[7]。它是計算具有無向圖G結(jié)構(gòu)的隨機(jī)變
量集合在給定隨機(jī)變量集合o下的條件概率P(s|o)。將CRFs應(yīng)用于生物醫(yī)學(xué)命名實體識別中,則o表示一個句子的單詞序列,s表示相應(yīng)的狀態(tài)序列,標(biāo)注的過程就是根據(jù)已知的單詞序列推斷出最有可能
的狀態(tài)序列,即P(s|o)的最大值。本文實驗使用了一階線性CRF,如下式:(公式略)。條件隨機(jī)域模型允許在觀察序列上的任意依賴關(guān)系,并且特征不需要一定是一個完整的狀態(tài)或觀察值,可以用較
少的訓(xùn)練數(shù)據(jù)訓(xùn)練出模型,所以說,CRFs擁有了一般的最大熵模型的所有優(yōu)點。

2實驗

2.1特征選擇

生物醫(yī)學(xué)命名實體識別中常用的特征有以下幾種,一是局部特征,包括文本符號本身的特征和文本符號局部的上下文特征及其周圍的詞或符號的特征;二是全文特征,即文本符號在整個篇章中的上下文
特征;三是外部資源特征,比如說使用一些外部資源詞典等。本文研究中,使用了如下特征:(1)單詞本身:把單詞本身作為一個識別特征。(2)詞形特征:由于生物醫(yī)學(xué)命名實體一般含有數(shù)字、大
寫字母和特殊符號等,將這些簡單的表面特征定義為詞形特征。本實驗將大寫字母都用‘A’替換,數(shù)字用‘0’替換,非英語字符用‘-’替換,小寫字母用‘a’替換。(3)標(biāo)準(zhǔn)化拼寫特征:某些同一
類的生物醫(yī)學(xué)命名實體,它們拼寫方式很類似,如:IL-2andIL-4。用簡單的方法標(biāo)準(zhǔn)化所有類似的詞。如Kappa-B規(guī)范化為‘Aaaaa_A’,再將連續(xù)的相同的字符縮短為一個字符,即為‘Aa_A’。這樣做
能夠?qū)⑵磳懴嗨频纳镝t(yī)學(xué)命名實體提取的特征保持一致。(4)詞性特征:生物醫(yī)學(xué)命名實體的大寫字母特征對其識別性能貢獻(xiàn)不大,并且生物醫(yī)學(xué)命名實體多是描述性的名稱而且名稱很長,所以,詞
性特征對識別生物醫(yī)學(xué)命名實體邊界很有幫助。本系統(tǒng)使用了GENIAtagger2.0.2[8]詞性標(biāo)注器,GENIAtagger使用了WallStreetJournal語料和PennBioIE語料訓(xùn)練,因此GENIAtagger在生物醫(yī)學(xué)領(lǐng)域文本
中詞性標(biāo)注具有較高性能。(5)語塊特征:系統(tǒng)使用GENIAtagger2.0.2進(jìn)行語塊標(biāo)注作為特征。(6)關(guān)鍵詞特征:利用統(tǒng)計方法在訓(xùn)練集中統(tǒng)計出高頻的生物醫(yī)學(xué)命名實體關(guān)鍵詞,將這些詞是否出現(xiàn)
作為特征。(7)別名特征:將已識別出的生物醫(yī)學(xué)命名實體存放在一個列表中,當(dāng)系統(tǒng)遇到一個候選詞時,生物醫(yī)學(xué)命名實體識別算法就被激活,動態(tài)決定該候選詞是否是前面已經(jīng)識別出來的生物醫(yī)學(xué)
命名實體列表中詞的別名。別名特征屬于全文特征。(8)特征聯(lián)合:將相鄰位置的特征進(jìn)行聯(lián)合,得出新的特征,有助于識別長距離詞。本實驗選擇窗口的大小為(-1,+1)。(9)字典特征:使用了
一些字典資源作為特征加入特征向量空間,有CommonWord詞典、Species詞典、Tissue詞典和EndingsofChemicals詞典[9]等。

2.2縮寫詞識別

現(xiàn)在最常用的生物醫(yī)學(xué)文獻(xiàn)庫是MEDLINE(MEDLARSONLINE),它是由美國國家醫(yī)學(xué)圖書館于1966年開始建立的,收錄的文獻(xiàn)總量超過1500萬條。據(jù)了解,MEDLINE上42.8%以上的摘要有縮寫詞,平均5~10篇
摘要有一個新出現(xiàn)的縮寫詞,并且縮寫詞出現(xiàn)的增長率逐漸升高。很多縮寫詞具有高度歧義性,它的形成沒有任何規(guī)律,所以,提高縮寫詞的識別率對生物醫(yī)學(xué)命名實體的識別研究至關(guān)重要。通常,縮
寫形式經(jīng)常和它的擴(kuò)展形式一起出現(xiàn),并通過括號連接,通常有兩種形式:(1)longform(shortform),(2)shortform(longform)。實際當(dāng)中大部分是第1種形式,當(dāng)括號中的詞超過兩個時,就認(rèn)

Top
主站蜘蛛池模板: 国产99视频精品免费视频免里 | 国产成人一区二区 | 成人精品综合免费视频 | 免费看久久 | 69国产成人综合久久精品91 | 精品国产美女福到在线不卡f | 亚洲国产精品免费在线观看 | 亚洲 欧美 日韩中文字幕一区二区 | 国内精品2020情侣视频 | 亚洲国产成人精品一区二区三区 | 性欧美videos俄罗斯 | 亚洲国产精品一区二区不卡 | 自拍成人 | 亚洲国产日韩欧美综合久久 | 91精品久久久久久久久久 | 成年人黄页 | jk制服福利在线播放 | 亚洲一级毛片免观看 | 特别福利视频在线观看 | 一级毛片真人免费观看 | 97青草香蕉依人在线播放 | 国产欧美日本亚洲精品五区 | 欧美经典成人在观看线视频 | 亚洲精品区 | 中文字幕日韩精品在线 | 国产一区亚洲二区三区毛片 | 一级毛片真人免费播放视频 | 欧美一线免费http | 欧美黑大粗硬毛片视频 | 亚洲视频中文字幕在线观看 | 欧洲亚洲一区 | 国产无毛 | 成人一级大片 | 国内精品七七久久影院 | aa毛片免费全部播放完整 | 日韩色在线 | 欧美成人性做爰网站免费 | 久久精品综合 | 67194欧美成l人在线观看免费 | 亚洲精品专区一区二区三区 | 久草欧美|