面向術語知識庫編纂的專用語料庫設計

來源：樹人論文網發表時間：2021-09-17

簡要：摘要:由于術語信息的多樣化需求對術語數據來源提出了新要求,專用語料庫在術語知識庫編纂中發揮了愈益重要的作用。文章以氣象學科為例,通過與通用語料庫比較,從類型定位、語料

　　摘要:由于術語信息的多樣化需求對術語數據來源提出了新要求,專用語料庫在術語知識庫編纂中發揮了愈益重要的作用。文章以氣象學科為例,通過與通用語料庫比較,從類型定位、語料規模、語料選擇和語料加工四方面明確了如何設計面向術語知識庫編纂的專用語料庫。

面向術語知識庫編纂的專用語料庫設計

　　盧華國，中國科技術語發表時間：2021-09-16

　　關鍵詞:術語信息;術語數據;術語知識庫;專用語料庫

　　引言

　　為了提高語言內部或語言之間專業交際的效率,術語學家借助術語標準化來消除專業語言中的歧義,其工作原則構成了普通術語學的基本理念[1] ,其實踐成果主要表現為術語庫。自 20 世紀 90 年代開始,伴隨著術語學研究的描寫轉向[2-4] , 術語庫的宏觀和微觀結構也發生了顯著的變化,不再只是以規范為導向的單語或雙語術語集,已經轉變為兼具專門用途語言描寫的術語知識庫。具體講,收錄的術語拓展至名詞以外的其他詞性;除了種-屬和部分-整體等層級概念關系,功能、因果、處所等聯想關系日益受到重視;術語的語言維度已然進入編纂者的視野,對句法、搭配以及近義、派生等聚合關系的描寫在一定程度上模糊了術語與詞語之間的界限。西班牙格拉納達大學以框架術語學為依托,編纂了生態詞庫(EcoLexicon) [5] ,加拿大魁北克學派借鑒詞匯語義學相關理論,編纂了環境詞庫(DiCoEnviro) [6] ,二者可以看作是描寫范式下的術語知識庫的代表。

　　術語知識庫多樣化的信息類型對數據獲取提出了新要求,對內省和文檔閱讀等傳統數據獲取方式提出了新挑戰。語料庫大大突破了編者能夠閱讀的文檔數量,彌補了編者在專業知識儲備和外語語感方面的不足,語料庫工具的使用又能顯著提高數據獲取的效率。因此,語料庫在術語知識庫編纂中發揮了不可或缺的作用。然而,筆者發現鮮有研究系統梳理面向術語知識庫編纂的語料庫與一般用途的語料庫在設計上的共性和差異。一般認為, 目的性、代表性和可機讀性是語料庫應該至少滿足的三個要求,也是語料庫設計中需要重點考慮的三個因素:目的性確定了語料庫的類型特征,代表性制約著語料的規模和選擇,可機讀性則對語料提出了具體的加工要求。本文將以氣象學科為例,從語料庫設計的類型定位以及語料的規模、選擇和處理四方面探討如何設計面向氣象術語知識庫編纂的氣象英語語料庫。

　　1 類型定位

　　不同類型的語料庫對語料的規模、選擇和處理有著不同的要求。因此,明確氣象英語語料庫的類型定位是語料庫設計的前提。語料庫的分類可從多個角度切入:

　　(1)單語語料庫和多語語料庫。多語語料庫根據研究的目的又可以進一步分為平行語料庫和可比語料庫。在平行語料庫中,兩種語言的語料相互對應,即一種語言是另外一種語言的譯文。在可比語料庫中,兩種語言的語料的收集雖然參照同一個抽樣框架,但二者在內容上并不存在翻譯對應關系。

　　(2)通用語料庫和專用語料庫。通用語料庫廣泛采集某種語言的口、筆語形式,取樣時盡可能考慮口、筆語的主要社會變體、地域變體、行業變體等各種變異及語言使用的各種場合之間的平衡,力求最好地代表一種語言的全貌。而專用語料庫出于某種特定的研究目的,常常只收集某特定領域的語言使用樣本。

　　(3)共時語料庫和歷時語料庫。共時語料庫由同一時代(主要是當代) 的語言使用樣本構成, 歷時語料庫則由不同時代的語言使用樣本構成。

　　(4)本族語語料庫和學習者語料庫,前者收集的語言使用樣本全部源自本族語者,后者的語料則由非本族語學習者語言使用樣本構成。

　　(5)口語語料庫和筆語語料庫。雖然,在日常生活中,口頭交際是最主要的交流方式。但是由于口語語料需要先轉寫成文本才能為語料庫分析軟件進行識別和處理,口語語料庫的建設需要耗費更多的人力和物力, 因而純粹的口語語料庫非常少見[7] 4 [8] 69-74 。

　　綜上所述, 語料庫的分類體系可以用圖 1 表示。

　　在上述分類體系中,從同一視角對語料庫的二元劃分只是為了方便討論,并不能排除兩種劃分之間的過渡類型。例如,時間跨度只是一個相對的概念,歷時語料庫和共時語料庫之間僅僅存在度的差異,無法截然分開。盡管如此,該分類體系為理解氣象英語語料庫的類型特征提供了一個參照的框架。首先,氣象英語語料庫不關心整個語言的使用情況,僅專注于氣象學科,顯然應該歸于專用語料庫,這是氣象英語語料庫最基本的類型特點。此外,氣象英語語料庫不以翻譯或跨語對比為研究目標。其次,氣象英語語料庫屬單語語料庫,僅涉及英語這一種語言,旨在記錄和描寫氣象專業英語的語義/ 概念或句法特征,所收集的語料源自能夠熟練使用英語進行專業交際的氣象專家,主要指以英語為母語的氣象專業人士,與服務于中介語研究的學習者語料庫有著明顯的區別。再次,氣象交際主要是一種書面語交際,雖然也涉及課堂教學和學術講座等口頭形式,但是本質上屬于正式的語體。因此,氣象英語語料庫可歸為筆語語料庫。最后,氣象英語語料庫關注的是當代氣象英語的使用情況, 并不特別關心氣象英語的發展變化,因而本質上屬于共時語料庫。通過在語料庫的整個分類體系中對氣象英語語料庫進行定位,可以幫助語料庫的設計者從宏觀上把握其類型特征,為確定語料的規模大小、語料選擇的具體標準、語料的加工處理奠定基礎。

　　2 語料規模

　　語料的規模是指語料庫所包含的形符( token) 總數(包含多次出現且被重復計入的詞),是設計者在語料庫建設之初就需要考慮的一個重要方面。 20 世紀 60—70 年代,語料的收集主要靠鍵盤輸入和光學掃描,需要耗費大量的時間、人力和資金。受技術水平的限制,能夠存儲和處理的數據量也非常有限。而現在大部分文本都以電子形式存在,省去了人工輸入之苦。就硬件而言,普通的個人電腦已經能夠滿足語料庫建設對海量數據的存儲和處理要求。因此,討論“語料規模需要有多大” 比探討“語料規模能有多大”更有實際意義。

　　語料規模的大小首先取決于建庫的目的。語料庫可用于研究語法,也可以用于考察詞匯。與詞匯相比,語法結構數量少且復現率高,所以用于研究語法特征的語料規模較小。例如,Biber [9] 指出 1000 詞的語料就能滿足研究英語動詞現在時和過去時的需要。用于考察詞匯特征的語料規模則需要大很多[10] 。由齊普夫定律[11] 可知,部分詞匯 (如 and、the)在文本中出現的頻率非常高,部分詞匯的出現頻率卻非常低。只有增加語料的規模,才可能增加相對生僻的詞匯在語料庫中出現的頻次。對詞典編纂而言,只有當語料庫包含的類符總量足夠大時,基于語料庫產生的詞表才能滿足詞典對收詞量的需要,為詞典編者提供足夠量的索引行作為描寫詞匯特征的數據基礎。 Krishnamurthy [12] 認為形符量達到 1 億的語料庫能夠滿足袖珍詞典的編纂需要,但是還不足以用來描寫詞匯的類連接特征。 Atkins 和 Rundell [8] 54 指出有時候一個詞即使在語料庫中出現 100 次也不足以保證描寫詞匯特征所需要的確定性( descriptive certainty)。如果被描寫的詞是多義詞,有著復雜的語法結構和豐富的搭配型式,那么語料規模只有成倍增加才能滿足編者描寫多義詞的需要。

　　語料的規模還與涉及的領域( domain) 或主題 (topic)的多少和寬窄有關。就通用語料庫而言,為了取得平衡的效果,語料往往需要涵蓋多個主題, 其規模也必然很大。相比之下,“專用語料庫往往較小,但是依然能夠代表專業語言變體,因為涉及的專業領域越窄,代表該領域所需要的文本數量就越小” [13] 408 。專用語料庫在語料規模方面的這一特點與術語自身的特點是分不開的。首先,與通用詞匯比,術語具有專業特殊性( domain-specificity), 數量相對少,在專業文本中的分布密集程度高。因此,規模較小的專用語料庫也能夠滿足術語研究對覆蓋范圍和復現率的要求。其次,由于術語在搭配方面透明度高且規律性強,無需借助對大量語料的頻次統計以濾掉那些高度依賴語境的非典型搭配 (例如,. . . went to the graveyard with weeping eyes and hairs 中的軛式搭配 weeping eyes and hairs)。最后,在術語中,單義術語占據多數,即使有多義術語,其義項數量與通用語言中的常用詞匯 ( 如 break)也不可同日而語。因此,描寫術語需要的索引行的數量在理論上比描寫常用詞匯要小。

　　Bowker 和 Pearson [14]45 指出“不應該想當然地認為(專用語料庫) 總是越大越好”。李德俊[15] 98 也提醒說,由于“規模悖論”的存在,語料庫的規模并不是越大越好,在語料庫建設時,要特別注意“收益遞減率”(the law of diminishing returns)。作為典型的專用語料庫,氣象英語語料庫僅涉及氣象專業文本,其語料規模無需達到通用語料庫的級別。參考同類面向術語知識庫編纂的專用語料庫的設計經驗(如[16]),筆者認為氣象英語語料庫的語料規模至少達到百萬級別,才能滿足氣象術語知識庫術語知識描寫對語料規模的要求。此外,考慮到氣象英語中新術語、新用法持續出現的特點,氣象英語語料庫應該呈現出一定的開放性,允許編者根據編纂的實際需要定期補充新文本。換言之,氣象英語語料庫的語料收集不是一次就能完成的,而是一個在百萬級別基礎上不斷充實的動態過程。

　　3 選擇標準

　　語料有規模大小之別,但代表性是其共同特點。語料的代表性主要通過對文本的選擇來實現。文本選擇的標準可以分為內部標準和外部標準兩類。就通用語料庫而言,語料選擇的內部標準是指文本所共享的語言或文體特征。 Atkins 和 Rundell [8] 54 介紹了基于內部標準的文本選擇過程: (1)選擇系列來源不同的文本;(2) 分析文本中反復出現的詞匯或語法特征(如語態、人稱、搭配); (3)基于這些特點嘗試對文本進行分類;(4) 收集更多能夠包含這些語言特征的文本,繼續分析文本的語言特征,改進其分類,收集更多文本,直至這些特征在語料庫中更清晰地反映出來。值得注意的是,依據內部標準從語料中獲取的數據可能因循環論證而信度受損[17] 171 。鑒于此, Sinclair [17]提出按照文本的情景、功能等非語言( non-linguistic) 或語言外(extra-linguistic)特征選擇語料,這樣至少可以使語言特征在語料庫建設的開始階段不受文本選擇的影響。語料庫的建設者在按照外部標準選擇語料的同時,還可以根據從語料分析中獲取的語言特征評估和改進語料的代表性[18]150 ,從而把外部標準和內部標準統一到文本的選擇過程中。

　　專用語料庫也可以把語言特征作為選擇專業文本的內部標準。 Halskov [19]主張把易讀性(readability)和專業知識密度作為衡量專業文本質量的重要指標。他認為易讀性是學術文本的重要特征, 與句子長度、詞(包括復合詞) 長度和被動語態的使用量呈反比關系,與通用詞匯密度和人稱代詞的使用量呈正比關系。專業知識密度是學術文本的另一個特征,與未登錄詞( out of vocabulary words, 指在自然語言處理中沒有被詞典收錄的各類專有名詞、縮略語、新增詞匯等)和知識型式(主要包含詞匯或語法標記語,能夠幫助文本讀者理解概念的意義和概念之間的關系)的密度呈正比關系。換言之,易讀性越低,知識密度越高,文本質量就越高。易讀性和知識密度雖然為專用語料庫的文本選擇提供了參考,但是由于偏好知識密集型文本,容易造成文本類型單一的缺點。

　　Bowker 和 Pearson [14] 51 指出,為了保證更全面地覆蓋專門用途語言的概念和語言特征,專用語料庫應該選擇與所涉學科相關的各類文本。他們根據參與方把專業交際分為專家-專家、專家-初學者(initiate)、相對專家(relative expert) -外行(uninitiate)和老師-學生四種類型[20]35-39 。他們認為,第三種交際不僅術語密度低,而且對術語的使用也比較隨意,因而主張把該類交際中涉及的文本排除在語料庫之外。筆者認為在該類交際中,鑒于信息接受者的專業知識水平低,信息發出者為了有效傳遞專業信息,往往以深入淺出的方式對核心概念進行解釋,專業文本因而提供了較豐富的認知語境信息,也值得納入專用語料庫的選材范圍。

　　就氣象英語語料庫而言,這四類交際場景涉及專著(如 Severe Convective Storms) 和學術期刊(如 Atmospheric Research)、專業教材(如 An Introduction to Dynamic Meteorology)、報刊科普或專欄文章(如 ScienceDaily 網站上有關氣象的科普文章)、入門級教材( 如 Essentials of Meteorology: An Invitation to the Atmosphere) 等文本類型。 Bergenholtz 和 Tarp [21]94指出專用語料庫在選擇文本的時候還應該兼顧各個子學科并根據其重要性確定各類文本在語料中所占的比重。具體到氣象英語語料庫,對語料的選擇應該至少涵蓋大氣、大氣探測、大氣物理學、大氣化學、動力物理學、天氣學、氣候學、應用氣象學 8 個學科分支。

　　4 加工處理

　　語料庫的一大優勢是可以借助分析軟件對語料進行多文本檢索,快速提取所需要的具體信息或統計某一語言特征的整體分布情況。語料的可機讀性是語料庫發揮這一優勢的前提。為此,首先需要對選取的語料進行清潔處理。用于氣象英語語料庫建設的語料資源多是 PDF 和 HTML 數字文本,在投入使用之前,需要統一轉換成純文本。在此過程中,還會產生一些不合規范的符號或格式, 若不加以清理會導致詞匯分析、搭配統計不準確以及詞性賦碼出錯或無法進行[7] 32 。此外,由于語料來源于各種類型的出版物,被選取的文本可能還包含致謝、版權頁、頁頭書名、圖表公式、索引目錄、參考文獻等內容。它們對氣象術語知識庫編纂沒有參考價值,也需要從文本中清理出去[8]85 。

　　在進行必要的清理之后,還需要對語料做進一步的處理,以便借助軟件從語料分析中得到更準確的結果:(1)分詞處理( tokenization)是語料預處理中的一個常見步驟,指將一連串的字符轉換成相互分離、容易識別的形符。梁茂成、李文中和許家金[7] 45 指出,如果不對語料進行分詞處理,一來容易導致檢索困難,二來可能會使語料庫的頻率統計出現誤差,還可能會影響語料庫的標注和后期加工。 (2)詞目還原( lemmatization)是語料預處理中的另一項基本操作,是指將詞匯的各種屈折形式映射至原形,使分析軟件能夠把它們歸并為同一個類符,從而把與詞目相關的各類統計信息匯總給編者。氣象英語語料庫同樣有必要進行分詞和詞目還原,但是由于某些分析軟件( 如術語提取軟件 TermoStat、搭配關系和概念關系提取軟件 Sketch Engine)已經整合了這兩項功能,語料庫的建設者無需對語料再做這方面的處理。

　　Leech [22]4 指出“為了從語料庫中提取信息,經常得先從輸入信息開始”。對語料進行清理、分詞和削尾處理之后,語料庫已經可以投入使用,但是為了讓使用者更合理地解讀由軟件獲取的分析結果,還需要增加元數據(meta-data)標記,盡可能恢復在語料采集中丟失的語境信息。在各類元數據中,文本分類信息和結構信息對合理解讀從語料庫中獲取的數據特別重要[18]155 。就英語氣象術語知識庫而言,前者旨在明確某一具體文本在氣象學學科體系中的定位,可以幫助編者確定某一術語或特征的學科分支來源。后者旨在說明文本的各組件之間的界限(如學術論文的摘要、綜述、結論等組件)。這類信息可幫助編者確定某一語言特征在文本中的不同位置,從而結合文本結構對數據做出更全面的解讀。

　　語料還需要進行必要的標注。對術語數據庫創建而言,術語、搭配和概念關系這三類信息至關重要,一般需要利用正則表達式設置復雜的檢索條件才能加以提取。以下是兩款軟件從語料中提取術語、搭配和概念關系等信息類型所使用的檢索語法:

　　TermoStat 的術語檢索語法: (A| N)? (A | N)? (A | N)? (A | N)? (A | N)? N [23] Sketch Engine 的“動詞+名詞”搭配檢索語法: 1: "V" "(DET|NUM|ADJ|ADV|N)"∗ 2: "N" Sketch Engine 的種屬關系檢索語法: HYPONYM, | ( | : | is| belongs ( to) ( a | the | …) type | category |…of HYPERNYM [24]

　　從以上檢索語法可知,增加詞性標注是提取以上信息類型的前提。因此,對語料進行詞性賦碼是面向術語數據庫的語料加工處理的基本內容。術語提取軟件 TermoStat 默認對上傳的語料進行賦碼處理。語料庫檢索軟件 Sketch Engine 為英語就提供了 11 種詞性賦碼集,語料庫建設者根據需要選擇其中一種賦碼后,軟件自動完成對語料的詞性賦碼。

　　5 結語

　　語料庫設計是從語料庫中提取可靠數據的關鍵。為了建設面向術語知識庫編纂的語料庫,編者需要首先在語料庫分類體系中為專用語料庫定位以明確其類型特征,然后根據語料庫的建設目的和涉及的主題范圍確定語料的大致規模,并根據數據提取中出現的新情況向語料庫中添加新語料。為了保證語料庫的代表性,編者還需要根據專業交際的特點和學科的內部構成確定語料選擇的標準。最后在使用語料之前,還應該對收集的文本進行必要的格式轉換、內容清理、信息標注等處理。

上一篇：基于ＳＰＯＣ的英語演講課程混合式學習模式探究

下一篇：立德樹人視域下高職英語課程思政實施路徑研究

相關論文推薦

論文指導 >

SCI期刊推薦 >

論文常見問題 >

SCI常見問題 >

国产视频www-国产视频xxx-国产视频xxxx-国产视频一二-一本大道香蕉中文日本不卡高清二区-一本久久精品一区二区

面向術語知識庫編纂的專用語料庫設計