国产视频www-国产视频xxx-国产视频xxxx-国产视频一二-一本大道香蕉中文日本不卡高清二区-一本久久精品一区二区

樹人論文網一個專業的學術咨詢網站!!!
樹人論文網

術語表研制的四個步驟以英語語言學為例

來源: 樹人論文網發表時間:2021-03-31
簡要:摘 要: 在國外學者的詞頻研究方法、語境研究方法和語料對比方法的基礎上,以英語語言學 56 萬余字的語料為基礎,提出了四個步驟的術語表研制方法,并且歸納出了 359 個英語語言學

  摘 要: 在國外學者的詞頻研究方法、語境研究方法和語料對比方法的基礎上,以英語語言學 56 萬余字的語料為基礎,提出了四個步驟的術語表研制方法,并且歸納出了 359 個英語語言學術語。這種研究不僅是對英語語言學術語的第一次嘗試性歸納,而且研究方法上的創新可以應用于其他學科的術語研究和術語表的研制。

術語表研制的四個步驟以英語語言學為例

  本文源自中國科技術語 發表時間:2021-03-31《中國科技術語》雜志,于1985年經國家新聞出版總署批準正式創刊,CN:11-5554/N,本刊在國內外有廣泛的覆蓋面,題材新穎,信息量大、時效性強的特點,其中主要欄目有:探討與爭鳴、術語與翻譯、術語探源等。

  關鍵詞: 術語表; 英語語言學; 詞頻; 語境; 語料庫

  引言

  術語表( glossary) 是特定學科術語的集合。術語表的質量取決于術語的質量。梁愛林[1]把術語質量的標準概括為六個方面,即清晰性、一致性、得體性、簡潔性、準確性以及詞的衍生能力; PerinánPascual [2] 認 為 突 顯 性 ( salience ) 、關 聯 性 ( relevance) 和連貫性( cohesion) 決定了術語的質量。要確保術語表的質量,最重要的是從文本中提取術語的方法和程序要合理。一般來說,作為教材附錄的術語表是將教材中出現過的術語按一定的順序排列出來,這不是一件難事,但是要把一個學科的常用術語盡可能全面地遴選出來,代表一個學科的全部的知識體系和研究方法,卻不是一件容易的事。本文以英語語言學為例,將提出一種四步驟的術語表研制方法,并將盡可能全面地歸納出英語語言學的術語。

  1 術語表的研制方法回顧

  國內的術語表研究是多側面多角度的,比如葉其松[3]提出“術語編纂”三分說,從廣義、一般概念和狹義三個維度對術語進行論述; 鄭述譜和梁愛林[4]對國外術語學研究現狀進行了評介; 梁愛林[1]對術語資源的質量評估進行了較全面的探討。偶爾也有學位論文( 如陳觀喜[5]) 對文檔術語表的自動構建方法展開研究,提出了一些較有價值的觀點。

  至于國外的術語表研究,更多地關注術語的產生過程和實施方法,在研究思路上大致可以分為三類。第一類是基于詞頻的方法,第二類是基于上下文語境的方法,第三類是語料對比的方法。這些研究與本文的關系更加密切,所以我們來簡要介紹一下它們的主要觀點和代表性理論,然后評述一下其得失。

  第一類方法的基本思路是: 如果一個單詞出現的頻率比較大或者該單詞以固定的搭配形式出現在特定的文本中,那么它在這個領域中成為術語的可能性比較大。

  詞頻 方 法 代 表 性 的 理 論 是 TF-IDF [6]。TF ( term frequency) 指詞頻,即一個詞條在文檔中出現的頻率。IDF( inverse document frequency) 指逆向文本詞頻,如果包含某詞條的文檔越少,即 IDF 越大,則說明該詞條具有很好的類別區分能力。CValue [7]是術語抽取方法中應用較多的理論,在統計詞頻時它要求候選術語不得嵌套在別的術語中,先通過計算候選術語頻率和長度得到一個分值,然后根據包含該候選術語的更長的候選術語的詞頻來調整該分值。Basic [8]與 C-Value 方法剛好相反,根據 Basic 方法抽取的術語可以是其他候選術語的一部分。

  第二類方法是基于上下文語境來區分術語和非術語。NC-Value [7]是代表性的方法之一,它主張一個特定領域的語料庫中通常有一個“重要”單詞的列表,在這些“重要”單詞語境中出現的候選術語應該被賦予更高的權重。Domain Coherence [9]方法是 NC-Value 的一個改進,它用 Basic 方法抽取最好的 200 個術語候選項,然后從它們的上下文中過濾其他詞性的單詞,這個過濾過程只保留在文檔中詞頻至少占四分之一的名詞、形容詞、動詞和副詞,最后用標準化的 Astrakhantsev [9]排序得到前 50 個單詞。

  第三類方法是語料對比的方法,基本做法是通過單詞在指定領域語料中的詞頻和其他語料中的詞頻進行比較,將術語與一般的單詞或者短語區別出 來。 這 類 方 法 主 要 有 Domain Pertinence、 Weirdness 和 Relevance [9]。

  上述三類方法,各有其合理性,下面我們分別進行評述。

  第一類方法基于詞頻來遴選術語,這是最為基礎的操作步驟,但是詞頻方法不能排除高頻的非術語詞組,尤其是包含 2 ~ 3 詞的詞組,它們在各類文體中都具有很高的出現頻率,比如 put on 和 take advantage of 這類詞組,總是混跡于通過詞頻遴選出來的術語庫中,而且數量很大。Biber 等人[10]統計發現,在英語口語和書面語中這類詞組分別占 30%左右和 21%左右。Erman 和 Warren [11]的統計結果比例更高,認為分別占 58.6%和 52.3%,所以詞頻方法只能是術語表研制中的步驟之一,而不能成為獨立的術語遴選方法。

  第二類方法是基于語境來區分術語和非術語,某些“重要”單詞在詞串語境中與其他單詞的共現概率很高,但是詞組作為整體的出現概率不一定高,所以詞組可能被詞頻統計方法所過濾。如果能將詞頻方法和語境方法結合起來,把整體的詞頻數據和詞組內部各成分的共現概率進行量化,對兩者進行綜合平衡,按一定的比例取值,這樣計算的結果會比單獨考慮詞頻或語境特征更能遴選出合理的術語表。

  第三類方法是進行語料對比,通過同一單詞在不同文體或不同語域的語料中進行頻次比較,在統計術語時,這種方法可以排除高頻日常詞組,比如上文提到的 put on 和 take advantage of 等詞組是各種文體和各種語域中的通用詞組,它們不僅整體的詞頻很高,而且內部各成分的共現概率也很高,所以第三類方法通過語域排查可以過濾非術語的詞組,但是必須與第一和第二類方法結合起來使用。

  從我們的分析可以看出,三類方法各有其合理性,但是單獨使用時都有一定的缺陷,所以本文擬提出四個步驟的遴選方法,充分利用上述三種方法的優勢,同時讓它們揚長避短,優勢互補,找到一條適合術語遴選的方法。

  2 術語表研制過程詳解

  本研究以英語語言學的術語提取和術語表制作為例。此研制方法不僅可以為其他學科術語表的研制提供一種示范,其研究結果也可以為英語語言學學科提供可以利用的術語庫,指導英語語言學教材編寫時的術語選用,同時也可以用作教材的附錄,供教材讀者使用。當然,由于語料選擇的有限性和各種參數在量化精度上的局限性,術語表不可能窮盡一切術語,而且由于學科在不斷發展之中,術語表也必須隨著時間推移而不斷更新。

  2.1 步驟一: 運用詞頻統計方法進行初步篩選

  步驟一運用詞頻統計方法,篩選出候選的術語,是對第一類方法的借鑒和發揮。

  為了研制英語語言學語域的術語表,我們設計了一個自建語料庫,包括四種語言學著作,并將它命名為 Linguistic Academic Corpus( LAC) 。四部著作分別是: Bussmann [12]的 Routledge Dictionary of Language and Linguistics; Kracht [13]的 Introduction to Linguistics; Saussure [14]的 Course in General Linguistics; 胡壯麟[15] 的《語言學教程》( 第五版) 。Routledge Dictionary of Language and Linguistics 是到目前為止詞條最多、聲望較高的語言學詞典,是學界同行最常擁有的工具書,涉及英語語言學的各個子學科,內容完整、全面。其他三部都是普通語言學的經典教材,它們涉及的術語比較全面,也比較規范。其中,Introduction to Linguistics 是 Marcus Kracht 根據自己在 UCLA 講授普通語言學時的講義編寫的教材,Course in General Linguistics 是根據 F. de Saussure 在日內瓦大學三次講授普通語言學的講義整理出版的遺著,《語言學教程》是國內讀者熟悉的普通語言學的經典教材,在內容和語言的經典性方面不遜于國外同類教材。四部著作的形符數( tokens) 為568 138詞,類符數( types) 為 27 828 詞。

  在處理語料時,我們使用了語料庫檢索軟件 Collocate 1.0,對語料中的 N 元詞組( N-gram) 進行檢索,詞組長度設定為 2~5 詞( 即 N= 2,3,4,5) ,以詞頻( Frequency,下文縮寫為 Freq) 為統計參數,發現共有 86 918 個詞組類型,在下文中我們稱之為 LAC-86918,其中 2 ~ 5 詞的詞組分別是 39 339、 27 694、12 986、6899 個。表 1 是各種長度詞組的舉例,它們分別是各組中詞頻最高的 10 個例子。

  從表 1 可以看出,10 個頻率最高的 2 詞詞組只有 of language 與語言學相關,3 詞詞組 只 有 the meaning of 與語言學相關,4~5 詞詞組中與語言學相關的詞組稍多,共有 6 個與語言學有關,而且,它們都不具備術語的名詞性范疇特征,或者是語義不完整,沒有明確的語義指向。對 4~5 詞詞組來說,詞組不具有單一的語義中心,如 trends in linguistics The Hague,或者說它們具有跨句的組合性特征。所以,必須對 LAC-86918 進行較大規模地壓縮和精簡。

  2.2 步驟二: 運用停用詞列表進行二次篩選

  對 LAC-86918 進行壓縮和精簡,是第二步的操作,即根據停用詞表( stopword list) 來進行過濾和精簡,可以較大限度地區分術語與非術語。所謂的 “停用詞”,指高頻率的虛詞或與檢索目標無關的高頻詞組。

  使用停用詞表,符合第二類方法中的 NC-Value 理論( Frantzi et al 2000) ,它認為在某些“重要”單詞語境中出現的候選術語應該被賦予更高的權重, “停用詞表”的使用正是對這一原則的逆向使用,因為“停用詞表”是可以認定的“不重要”的單詞或詞組,可 以 把 它 們 或 與 之 搭 配 的 詞 組 過 濾 掉。 Domain Coherence [7]用 Basic 方法抽取最好的 200 個術語候選項,再從它們的上下文中過濾其他詞性的單詞,過濾過程只保留在文檔中詞頻至少占四分之一的名詞、形容詞、動詞和副詞,這種方法的逆向使用也與使用“停用詞表”的方法異曲同工,因為 “停用詞表”包含的過濾項包括各種虛詞( 還有 PL 和 AFL) ,過濾的結果與 Domain Coherence 方法只保留高頻名詞、形容詞、動詞和副詞的方法在思路上是一致的。

  從表 1 可以看出,LAC-86918 中包含了太多的虛詞成分( 如介詞、不定式的小品詞 to 等) ,另外還包含很多非學術的通用詞組和通用學術詞組,為了把這兩類詞組過濾掉,我們選擇了 PL 和 AFL 這兩個詞組庫。

  PL 是 Martinez 和 Schmitt [16] 基于英國國家語料庫( BNC) 選取的 505 條非學術詞組庫( PHRASal expressions list) 。在 505 條非學術詞組中,有 119 條被兩位作者標記為在書面文體中“少見或不存在”( rare or non-existent) ,只在口頭文本中有較大頻率,所以本研究只選取在書面文體中有較高頻率的 386 條短語( 386 = 505-119) ,包括 2 ~ 4 詞組成的非學術詞匯。

  AFL 是由 Simpson-Vlach 和 Ellis [17]所創建的通用學術語料庫( academic formula list) ,總共 607 個詞組,包括三個部分,第一部分是在口語與書面語中均為高頻的 207 個核心詞組( core AFL academic formulas) ,第二部分是在書面語中高頻的 200 個詞組 ( written AFL top 200) ,第三部分是在口語文體中高頻的 200 個詞組( spoken AFL top 200) 。我們選取 207 個核心詞組和 200 個書面語詞組,共計 407 個。它們是由 3~5 詞組成的學術詞組。

  選用 PL 和 AFL 的理由,是因為它們分別代表日常話語中的通用詞組和多學科的通用學術詞組,而本研究選用的語料是語言學語域的專門學科文本,其目標是提取語言學語域的專門術語,所以該術語表不會與 PL 和 AFL 交叉或共現。

  運用停用詞對 LAC-86918 進行二次篩選,得到 2 ~ 5 詞的術語分別為 6356 條、573 條、82 條和 25 條,總數是 7036,只有 LAC-86918 的不到1 /12。為了方便,我們把精簡后的詞組庫稱為 LAC-7036。表 2 列出了 LAC-7036 中詞頻排序最高的 10 個術語詞組,這些詞組中大部分都具有術語的結構特征,也體現術語的語義類型。

  LAC-7036 的數量仍然太過龐大,而且,4 ~ 5 詞的詞組具有跨句的組合特征,許多外來語( 如 grammatica storica della lingua italiana) 也混跡其中,所以必須開啟第三步驟的篩選。

  2.3 步驟三: 運用互信息熵 MI 和詞組教學值 FTW 來進行第三次篩選

  第三步的篩選是運用互信息熵 MI( mutual information) 和 詞 組 教 學 值 FTW ( formula teaching worth) 來體現語境的篩選功能,也是借鑒了上文的第二類方法[7,9]。我們先介紹一下互信息熵 MI 和詞組教學值 FTW。

  互信息熵 MI [18]可以測量中心詞( node word) 和搭配詞( collocate) 之間的關聯強度 ( association strength) 或可搭配性( collocability) 。MI 的計算公式是: MI( x,y) = fobs( x,y) /fexp( x,y) 。在公式中,x 是中心詞,它的前后若干長度內的搭配詞為 y, MI( x,y) 是 x 和 y 之間的互信息熵。等式右邊是兩個函數式( f: function) 相除,x 與 y 的觀測共現頻數 ( obs: observation) 的函數 fobs( x,y) 為分子,零假設下中心詞與搭配詞的期望共現頻數( exp: expectation) 的函數 fexp( x,y) 為分母[19]。

  詞組教學值( FTW) 是 Simpson-Vlach 和 Ellis [17]提出的計算方法,用于評估教師在多大程度上認為某詞組應該成為教學內容。FTW 是對互信息熵和詞頻的按比例取值,即 FTW = 0.56 MI +0.31 Freq,當MI、Freq 和 FTW 三個參數取值相互沖突時,SimpsonVlach 和 Ellis [17]的做法是 FTW 優先。

  所以,不管是 MI 還是 FTW,都或多或少地體現了詞組內部各成分之間的相互期待,體現了“重要”的詞[7]與周邊詞之間相互吸引的強度,或者說體現了“重要”的詞所受的語境約束的大小,所以 MI 和 FTW 一方面排除了詞頻對于術語遴選的唯一取舍功能,另一方面也可以彌補語料庫規模對于詞頻總數的影響。任何語料庫的規模都是有限的 ( 不管它實際有多大) ,一般來說,語料庫的規模越大,術語的出現頻次就越多,所以如果考慮 MI 并且將它與詞頻按一定比例折算成 FTW,就可以降低語料庫規模的影響。這種做法體現了上文第二類方法對于第一類方法的補足與糾偏。

  我們遵循這種算法,把 FTW 的取值設定為 10.00,即只取 FTW 大于或等于 10.00 的詞組,得出 681 個語言學語域的術語 詞 組,我 們 稱 之 為 LAC-681,2~5 詞的詞組分別是 197 個、377 個、82 個、25 個,在規模上又只有 LAC-7036 的不到1 /10,與 LAC-86918 相比只有不到 1 /127。對 LAC-681 在此暫不舉例,因為它分為兩部分,其中一部分是在第四步驟( 見下一節) 的操作中被淘汰的部分,所以在下一節將有舉例,而保留的部分就是最終產品,即語言學語域的術語表。

  2.4 步驟四: 基于人工語義判斷的第四次篩選

  研究發現,LAC-681 雖然經過三次過濾,但仍然包含了較多非術語的詞組,必須進行第四步的過濾。造成過濾不徹底的原因有兩個: 一是在第二步驟中使用的停用詞表不可能剛好與術語詞組具有互補性,我們選擇停用詞表的原則是寧可過濾功能稍有欠缺,不可過濾功能太過強大; 另一個原因是 MI 和 FTW 的使用客觀上產生了一種負效應,因為原本可能通過詞頻被過濾的非術語詞組,因為 MI 和 FTW 降低了詞頻的權重,所以一部分原本詞頻較低的詞組又進入 LAC - 681 中,比如表 3 中的 tickling cookie monster 只出現了 2 次,但是它的內部連貫性很強,所以 MI 的取值高達 35. 02,結果 FTW 的值被拉高了,但它顯然不是語言學的術語。所以,為了把此類詞組過濾掉,必須借鑒上文的第三類方法,即運用語料對比的方法,通過單詞在指定領域語料中的詞頻和其他語料中的詞頻進行比較來排除。由于 LAC-681 的規模較小,所以我們采用人工判斷的方法,把語言學語域的詞組與非語言學語域的詞組區分開來,排查的結果是剔除了 322 個詞組,其中有的詞組是語義不完整或者在結構上 是 跨 句 的 詞 匯 組 合 ( 如 categorial grammar formal logic) 。表 3 是 322 個被排除的詞組中各種詞長詞組 FTW 取值最大的 10 個例子,按 FTW 的降序排列。

  排除了 322 個非術語的詞組后,余下的 359 個詞組就是最終產品,稱為 LAC-359,即語言學語域的術語表,其中第 1~97 是 2 詞術語,共 97 個,約占 27.02%,FTW 的平均值為 14.07; 第 98~320 是 3 詞術語,共 223 個,約占 62.12%,FTW 的平均值為 12. 85; 第 321 ~ 356 是 4 詞 術 語,共 36 個,約 占 10.03%,FTW 的平均值為 19.1; 第 357~359 是 5 詞術語,共 3 個,約占 0.83%,FTW 的平均值為26.1。在附錄中,每一種詞長的術語都是按 FTW 的降序排列。

  從上面的數據對比可以看出,3 詞術語最多,其次是 2 詞術語,再次是 4 詞術語,5 詞術語最少。從 FTW 來看,4 詞術語和 5 詞術語最高,它們的詞頻并不高,但是 MI 取值較高,即內部成分之間具有較高的相互期待。2 詞術語和 3 詞術語的 FTW 相對偏低,它們的詞頻雖然較高,但是 MI 取值偏低。

  3 結語

  國外學者對術語的研制方法可以分為三類: 詞頻研究方法、利用語境的研究方法和語料對比的研究方法,他們各有優勝之處,也各有其不足。本文提出的四步驟術語表研制方法吸納了三類方法的優點,同時回避了他們的不足。在四步驟方法中,第一步驟對應詞頻研究方法,第二和第三步驟是語境研究方法的應用和拓展,第四步驟是以人工篩選的方法體現語料對比的原則。通過對 56 萬余字的英語語言學語料的多種操作,歸納出了 359 個英語語言學術語。本文的研究不僅是對英語語言學術語全面的嘗試性歸納,其中的研究方法可以應用于各個學科的術語研究和術語表的研制。由于語料選擇的有限性和各種參數在取值上的局限性,LAC-359不可能窮盡一切術語,而且受到學科發展階段性特征的局限,術語表還必須隨著時間推移而不斷更新。

  本文的術語提煉方法,對于其他學科具有同等的適用性。但是,鑒于本文的語料是英文,如果其他學科所采用的語料是中文,而且中文是音節文字,詞句間有不同的斷句方法,所以我們建議采用多種方法對語料進行分詞( parse) ,在分詞結果各不相同的前提下,建議采用“投票”軟件( 軟件名為 vote) 。英文或其他印歐語言的語料,詞與詞之間有空格分開,無須進行分詞操作。

  我們建議同時使用 hanlp、jieba 和 thulac 這三種分詞軟件,以《語言學綱要》[19]第一章第一節第一段為例,三種分詞效果對比如下。

  hanlp 的分詞效果: 語 言/的/功 能/是/客 觀 存 在/的/。/功 能/既是/語言/的/屬性/,/也/是/我們/認識/語言/的/一個/視角/。/語言/的/功能/是/多方面/的/,/如果/ 從/寬泛/的/意義/上/講/,/大致/都可/歸入/語言/ 的/社會/功能/和/思維/功能/兩/個/方面/。/

  jieba 的分詞效果: 語言/的/功能/是/客觀存在/的/。/功能/既/ 是/語言/的/屬性/,/也/是/我們/認識/語言/的/一個/視角/。/語言/的/功能/是/多方面/的/,/如果/ 從/寬 泛/的/意 義/上/講/,/大 致/都/可/歸 入/語言/的/社會/功能/和/思維/功能/兩個/方面/。/

  thulac 的分詞效果: 語言/的/功能/是/客觀/存在/的/。/功能/既/ 是/語言/的/屬性/,/也/是/我們/認識/語言/的/一個/視角/。/語言/的/功能/是/多方面/的/,/如果/ 從/寬 泛/的/意 義/上/講/,/大 致/都/可/歸 入/語言/的/社會/功能/和/思維/功能/兩/個/方面/。/

  分歧存在于每段中的劃線部分,所以必須采用 “投票”程序,對三種分詞效果進行“投票”,體現 “少數服從多數”的原則。

  投票結果: 語言/的/功能/是/客觀存在/的/。/功能/既/ 是/語言/的/屬性/,/也/是/我們/認識/語言/的/一個/視角/。/語言/的/功能/是/多方面/的/,/如果/ 從/寬泛/的/意義/上/講/,/大致/都可/歸入/語言/ 的/社會/功能/和/思維/功能/兩/個/方面/。/

  分詞后,還必須進行人工校對,比如將“客觀存在”分成兩個詞。國內各學科的同行使用的語料一般是中文語料,可按上述方法處理語料。在語料處理完成之后,對于處理結果的統計和人工校對可以借鑒本文的方法。

主站蜘蛛池模板: 日本大臿亚洲香蕉大片 | 日韩欧美视频一区二区在线观看 | 1024香蕉视频在线播放 | 成人毛片手机版免费看 | 亚洲成a人片在线观看 欧美 | 超级香蕉97视频在线观看一区 | 99爱在线视频这里只有精品 | 一区二区三区观看 | 久久黄色毛片 | 亚洲自偷自偷图片在线高清 | 国产大片免费天天看 | 免费欧洲毛片a级视频 | 性感美女视频黄.免费网站 性高湖久久久久久久久 | 亚洲热视频 | 99色在线视频 | 日本一区二区高清免费不卡 | 欧美激情性色生活片在线观看 | 日本一级特黄在线播放 | 噜噜噜狠狠夜夜躁精品 | 老人久久www免费人成看片 | 欧美一级毛片欧美大尺度一级毛片 | 欧美性妇| 日本亚洲免费 | 欧美一级毛片俄罗斯 | 国产欧美日韩在线视频 | 欧美大尺度免费一级特黄 | 欧美一级成人毛片视频 | 网友自拍第一页 | 收集最新中文国产中文字幕 | 美女一级毛片毛片在线播放 | 岛国在线永久免费视频 | 欧美日韩在线观看免费 | 欧美与黑人午夜性猛交久久久 | 国产三级精品最新在线 | 国产免费观看a大片的网站 国产免费黄色网址 | 日韩精品欧美激情国产一区 | 波多野结衣在线看片 | 国产大尺度福利视频在线观看 | 久国产 | 欧美成人特黄级毛片 | 欧美一级高清视频在线播放 |