摘要:為落實中央全面深化改革委員會第十四次會議審議通過的《深化新時代教育評價改革總體方案》,評價領域自身的專業化建設至關重要。以語言測試的專業化建設為例,從提高語言測試相關人員的評價素養和加快制定適合我國國情的外語考試質量標準2個方面提出建設性意見。
本文源自中國考試,2020(09):5-9.《中國考試》以鄧小平理論和“三個代表”重要思想為指導,深入貫徹科學發展觀,以繁榮考試研究,推進考試改革,促進考試事業發展為辦刊宗旨,全面反映國內外考試科學研究的最新成果、介紹國內外考試理論研究新動態、探討考試改革和發展的新問題,集權威性、科學性、學術性、實踐性及可讀性為一體。主要內容版塊有考試制度研究、考試理論與實踐、考試技術應用、考試與評價等。讀者對象:國內外及地區各級各類考試與評價機構研究者和工作者,教育工作者,高等院校相關專業師生及其他與考試有關的人員。
習近平同志在2018年召開的全國教育大會上指出,要深化教育體制改革,健全立德樹人落實機制,扭轉不科學的教育評價導向,堅決克服唯分數、唯升學、唯文憑、唯論文、唯帽子的頑瘴痼疾,從根本上解決教育評價指揮棒問題。2020年6月30日,中央全面深化改革委員會第十四次會議審議通過《深化新時代教育評價改革總體方案》(以下簡稱《方案》),對如何扭轉不科學的教育評價導向提出“針對不同主體和不同學段、不同類型教育特點,改進結果評價,強化過程評價,探索增值評價,健全綜合評價”,為建立科學的、符合時代要求的教育評價制度和機制指明了方向。為確保《方案》落地,除政策層面的引導與支持、評價所涉各方的觀念轉變以外,評價領域自身的專業化建設至關重要。本文以語言測試為例,就語言評價領域的專業化建設提出一些意見和建議。
早在20世紀80年代,我國應用語言學學科、語言測試學科奠基人桂詩春先生就指出,要實現考試現代化的“四化”——制度化、專業化、標準化、電腦化,其中“專業化”包含2個方面:一是建立一支教育測量的專業化隊伍;二是用教育測量學的專業知識武裝各級教育行政管理人員和廣大教師[1]。筆者認為,桂詩春先生倡導的考試專業化在今天仍具有重要的現實意義。下面從語言測試相關人員評價素養的提升和語言測試標準的制定2個方面闡述語言測試領域的專業化建設。
1、語言測試相關人員評價素養的提升
語言評價素養指的是利益相關群體(如語言教師、考生、考試成績使用者、大學管理人員等)對評價理論與實踐的熟悉程度,以及將相關知識應用于評價實踐的能力[2,3]。評價素養的缺失可能導致以下2個問題:一是教師傾向于使用終結性評價而忽視形成性評價;二是評價結果往往會被誤用甚至濫用[4]。在過去的20年間,國際語言測試界在語言評價素養的理論建構及實踐方面進行了有益嘗試。2011年,第33屆國際語言測試研討會(LanguageTestingResearchColloquium,LTRC)設立語言評價素養專題。2013年,國際語言測試權威期刊LanguageTesting出版語言評價素養專刊,分別從評價基本要素——評價實施者和評價結果使用者視角[5]、評價素養定義——評價實施者和非評價實施者視角[6]、大學水平測試使用者的評價素養提升[7]、非語言評價從業人員的評價素養提升問題[8]等方面展開討論。就其定義而言,Boyles認為語言評價素養包括對測試實踐的了解、多種評價手段的運用、評價結果的解釋與分析,以及評價結果在教學中的應用[9]。Inbar-Lourie建議構建一個語言評價素養理論框架,該框架需包括有關語言評價的知識與相關研究,這些知識與研究基于理論和認識論信念,并與教育學、語言學、應用語言學領域的其他知識相關聯[2]。Davies提出語言評價素養的三要素,即評價技能、評價知識和評價原則:評價技能包括考試設計、評分、數據分析等方面的實踐能力;評價知識包括測量學、語言學等方面的知識;評價原則是指導考試開發和使用的理論基礎和倫理道德,如效度、信度、行為準則等[10]。
我國對評價素養的關注相對較少,且不成體系。金艷通過調研我國高校語言測試課程的開設情況,發現課程雖基本覆蓋語言測試理論和實踐的主要內容,但在教育和心理測量方面的發展、命題實踐、測試的社會學問題等方面探討不夠[11],提出我國語言評價素養研究的分類體系,并通過典型案例分析了語言評價素養研究的內容和方法[12]。林敦來聚焦課堂評價中教師的評價能力,提出中小學英語教師語言評價素養參考框架[13]。概括起來,評價素養就是要知道為何評、評什么、如何評,建立科學的、符合時代要求的教育評價制度和機制,需要對這3個問題進行深入思考。
1.1為何評
任何一項考試都有其目的,考試目的不同,評價方法不同,分數解釋不同,結果的運用也不同。從考試的用途來分,有成就考試、水平考試、學能考試和診斷性考試等。成就考試用來測量學生在一段時間內完成某一教學大綱或教材的情況;水平考試用來測量考生是否達到某一水平;學能考試測量考生完成學業任務的能力傾向,主要用于預測考生進入大學后的學習能力;診斷性考試與成就考試具有一定的相似性,測量學生掌握某一部分教學內容的情況,所不同的是,診斷性考試的目的是直接獲得教學反饋信息,以便于教師改進教學。
從評價與學習之間的關系來看,有3種評價:對學習的評價(assessmentoflearning)、促進學習的評價(assessmentforlearning)、作為學習的評價(assessmentaslearning)。“對學習的評價”使用最廣泛,為廣大英語教師所熟知,無須贅言。“促進學習的評價”近年來受到較多的關注,也有一些成功的實踐案例;但如何在評價過程中不斷尋找、解釋教學和學習過程中收集到的各類證據,確定學生的水平、學生需要達到的目標以及如何才能取得最佳學習效果仍有較大的研究與探討空間。“作為學習的評價”旨在讓學生反思和掌控自己的學習進程與進步,以便確立未來的學習計劃。學生對自己的學習負責,要知曉評價的標準,確立學習目標,制定達到目標的方法和策略[14]。貫徹落實“四個評價”,要明確評價目的,充分發揮“對學習的評價”“促進學習的評價”“作為學習的評價”3種評價方式的作用,為教和學提供有效反饋,以評促教,以評促學,實現教學質量提升和學生能力提高這一總體目標。
1.2評什么
語言測試,顧名思義,就是要測試語言能力,而語言是用來交際的,因此測試語言能力就是要測試學生的交際語言能力。國際語言測試終身成就獎獲得者LyleBachman提出的交際語言能力(communicativelanguageability,CLA)框架由3部分組成,即語言能力(languagecompetence)、策略能力(strategiccompetence)和心理生理機制(psychophysiologicalmechanisms),其中:語言能力包括組構能力(語法能力和篇章能力)和語用能力(施為能力和社會語言能力);策略能力把語言知識、語言使用者的知識結構、語境結合在一起,在決定達到表達目的最佳方法時起到評估、策劃、執行的作用;心理生理機制主要指語言使用的渠道和模式[15]。交際語言能力模型反映了人們對交際語言能力及其相關方面的基本認識,為外語教學提供了基本的理論指導,也為語言能力考試的設計提供了堅實的理論基礎、具體的操作方法和可行的評價原則[16]。《中國英語能力等級量表》(以下簡稱《量表》)研制組以交際語言能力模型為基礎,從語言教學和社會需求的實際出發,將語言能力定義為:一個人理解和表達意義的能力,即語言使用者/學習者運用自己的語言知識和非語言知識及各種策略,參與特定情境下某一話題的語言活動時體現出的語言理解能力和語言表達能力[17]。這一定義為中國語境下英語能力測試的構念定義、命題細則編制等提供了重要參考。
1.3如何評
如何評是一個方法論的問題。測試者除需要了解測試開發的相關理論與方法外,還需要了解教育測量學知識,能夠對測試結果進行量化分析與質性分析,對測試分數作出科學解釋,并對測試結果予以妥善運用,還應能從社會學角度審視測試的公平性,對基于測試結果的決策作出理性判斷。筆者認為,重點是要加強語言測試的效度研究及公平性研究。
效度是一項測試的價值所在,沒有效度的考試不能稱其為考試[18]。效度是證據及理論支持測試分數解釋的程度[19]。效度驗證貫穿測試的開發、實施和使用全過程。在語言測試領域,最具影響力也最具可操作性的效度驗證框架有2個:一個是評價使用論證(assessmentuseargument,AUA)[20],另一個是社會認知框架(social-cognitiveframework)[21]。AUA框架通過4個主張有效描述了評價后效、決策、分數解釋、評價記錄,以及考生表現之間的線性循環關系,強調了評價的公平性、公正性、穩定性、充分性、關聯性等核心要素,為評價的設計及效度驗證提供了理想的、實用的理論框架。社會認知框架由6個部分組成,即考生特征、認知效度、語境效度、評分效度、結果效度和準則關聯效度。在這一框架下,考試所測的能力被視為考生的心理過程,即認知的維度;考生用語言完成任務被視為一種社會現象,而不是純粹的語言現象。社會認知框架明確了在考試開發、實施、評分等各個階段需要收集的各種效度證據[22]。為實現有效測評的目標,需要建立常態化的考試效度驗證機制,為考試的分數解釋和使用提供支持。
教育公平是社會公平的重要體現,考試是迄今為止所實施的相對公平的人才選拔制度,對守護教育公平及社會公平起到了至關重要的作用。大規模、高風險考試的公平性無疑是教育公平的重中之重,歷來是我國政府和社會各界聚焦的重點。考試公平性問題在語言測試、教育測量等領域乃至整個社會日顯重要,應予以充分的關注。國內學者在借鑒國外相關理論與實踐的基礎上,在概念溯源及研究框架構建、大規模高風險考試的公平性研究等方面進行了有益探索,也取得了一些成績,但也存在一些問題,如中國語境下考試公平性研究的優先級不明確,缺乏深度。此外,已有的實證研究多采用量化方法,質性研究不足,部分涉考群體數據缺失,研究結果對實踐的指導意義有限。筆者認為,有必要在全面梳理語言考試公平性研究框架的基礎上,結合中國的考試實踐、教育現狀和社會環境,提出具有較強可操作性的理論框架,并明確考試公平性研究的優先級。
2、語言測試標準的制定
中國是考試大國。20世紀70年代后期,桂詩春先生把國際主流的語言測試理論引入中國,設計開發了我國第一個英語水平考試——EnglishProficiencyTest(EPT)。從此,我國的語言測試研發取得長足的進步。大學英語考試、英語專業考試、公共英語等級考試等大規模考試為推動我國英語教學作出了重要貢獻,高考、研究生入學考試等高風險考試為推動科學選才、人才多元化培養目標的實現提供了強有力支撐。但是,這些考試質量如何?基于考試所做的決策是否科學?考試是否被誤用甚至濫用?涉考各方的責任與義務是否明確?是否有一整套標準來指導或規范考試從設計到使用的全過程?這些問題值得深思。
沒有專業的標準,就無法判斷考試質量,也無法對考試使用是否符合倫理標準作出判斷[23]。美國心理學協會(AmericanPsychologicalAssociation,APA)早在20世紀40年代就組建了心理學道德標準委員會,并且制定了第一套道德準則。歐洲語言測試者協會(AssociationofLanguageTestersinEurope,ALTE)于1994年頒布《歐洲語言測試者協會行為準則》,并于2001年對其修訂,同時頒布了《歐洲語言測試者協會良好測試行為原則》。國際語言測試學會(InternationalLanguageTestingAssociation,ILTA)于20世紀90年代組建特別工作組,對各類標準和行業準則進行調研,在此基礎上成立由AlanDavies擔任組長的工作小組,著手制定《國際語言測試學會道德準則》(ILTACodeofEthics),并于2000年3月在溫哥華舉行的LTRC上獲得通過。《國際語言測試學會道德準則》是一份原則性文件,用于指導良好的職業行為。在此基礎上,ILTA又組織專家制定《國際語言測試學會實施指南》(ILTAGuidelinesforPractice),于2007年6月在巴塞羅那舉行的LTRC上獲得通過。《國際語言測試學會實施指南》對各種語言測試環境下良好的語言測試實踐所要思考的基本問題、考試設計者和命題人員的責任、組織高風險語言考試機構的義務、考生及利益相關群體的責任、測試使用者的責任、考生的權利與義務、課堂語言測試等方面提出了指導性原則。
在我國,楊惠中和桂詩春教授指出:“政府機構相關部門應盡快制定適合我國國情的《教育與心理測量標準》并頒布實施,起到‘量同衡’的作用。這是造福千百萬學子的重要舉措。”[24]2014年9月,國務院頒布《關于深化考試招生制度改革的實施意見》,明確提出要加強外語能力測評體系建設,首次從國家層面對我國外語教學和考試制度綜合改革提出具體要求。外語能力測評體系建設包括5項任務:制定中國英語能力等級量表,研發國家英語能力等級考試,推動外語考試內容與形式改革,制定適合我國國情的外語考試質量標準,逐步推行形成性評價和終結性評價相結合的評價體系。外語能力測評體系建設,從國家發展層面講,是實現新時期國家發展戰略的需要,是參與國際合作與國際競爭的需要;從人才培養的角度講,是科學選才、促進公平的需要;從個人自身發展層面講,是促進多種學習成果溝通互認、構建終身學習體系的需要[25]。經過近4年的努力,《量表》研制工作順利完成,并于2018年正式頒布。《量表》構建起一個中國英語學習、教學與測評的完整理論體系和統一的英語能力標準,為我國英語課程大綱制定、教學、考試提供一套合適的能力參照標準[26]。筆者認為,在現有工作基礎上,制定出臺適合我國國情的外語考試質量標準并落實標準實施的保障機制迫在眉睫。
總之,以“四個評價”為抓手“扭轉不科學的教育評價導向”,順應時代潮流,符合時代發展要求。通過評價領域的專業化建設推動教育評價改革,提升利益相關群體的評價素養,加快制定適合我國國情的考試質量標準及標準實施的保障機制,對于提高人才培養質量具有重要意義。
參考文獻:
[1]桂詩春.標準化考試:理論?原則與方法[M].廣州:廣東高等教育出版社,1986.
[12]金艷.外語教師評價素養發展:理論框架和路徑探索[J].外語教育研究前沿,2018(2):65-72.
[13]林敦來.中小學英語教師語言評價素養參考框架[M].北京:外語教學與研究出版社,2019.
[14]楊滿珍,劉建達.基于形成性評價的大學英語教學實踐探究[J].外語電化教學,2019(6):97-102.
[16]姜鋼,何蓮珍.構建系統連貫的考試體系促進英語教育教學和評價方式改革[J].中國外語,2019(3):4-10.
[17]教育部,國家語言文字工作委員會.中國英語能力等級量表:GF0018-2018[S].北京:高等教育出版社,2018.
[22]何蓮珍.《第二語言聽力測評研究與實踐》評介[J].外語教育研究前沿,2019(3):75-79.
[24]楊惠中,桂詩春.語言測試的社會學思考[J].現代外語,2007(4):368-374.
[25]林蕙青.貫徹落實《實施意見》推進國家英語能力等級考試建設[J].中國考試,2015(7):3-6.
[26]劉建達.我國英語能力等級量表研制的基本思路[J].中國考試,2015(1):7-11.
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >