快捷分类

项目反应理论在语言测试中的应用研究

更新时间：2009-03-28

一、项目反应理论在语言测试中应用

语言测试学是一门“从语言学、语言教学法和学习论中汲取科学内容，从心理测量学获得科学手段”(刘润请、韩宝成，1999)[1]，并且运用自然科学知识和现代化技术手段的综合性学科。心理测量学是一门研究心理测验(psychological testing)与评断(assessment)的科学(Cohen et al,1988)[2],是一门包括量化心理学(quantitative psychology)、个别差异(individual differences)和心理测验理论(mental test theories)等研究范围的学问。以试题反应理论(item response theory) (Hambleton & Swaminathan,1985[3]; Hambleton, Swaminathan & Rogers,1991[4]; Lord,1980)[5]为架构的当代测验理论(modern test theory) 与以古典测验理论(classical test theory)——主要是以真实分数模式(true score model) (Lord & Novick,1968)[6]为骨干的古典测验理论(classical test theory)形成测验理论的两大学派，而被称为现代测试理论的项目反应理论发展势头迅猛，推动了测试理论的发展。项目反应理论被引入语言测试后，很快被用于项目、任务的分析及计算机自适应式考试等。然而，迄今为止还鲜有文章系统地研究、归纳、整理项目反应理论在语言测试中的应用情况。 McNamara and Knoch(2012)[7]研究了IRT暨Rasch在世界部分地区语言测试中被采纳、接受的历史，分析了1984-2009期间部分语言测试的文献中Rasch模型被接受的概况。李久亮(2016)[8]回顾了Rasch 模型在中国应用研究的现状，简介Rasch 模型在国内语言测试领域应用的情况。笔者查阅了大量国际有关论著、论文，包括ProQuest全球论文网、《Language Testing》期刊和国内有关期刊，其文章内容涉及英、美、德、法、意、澳、墨、西、日、韩、印、中等国语言测试研究的成果，有的主题是研究母语的语言教学及测试，更多的是研究外语语言教学及测试。经过细致的梳理和研究，笔者绘制了项目反应理论应用于语言测试的系统图，见图一：

图一项目反应理论应用于语言测试

项目反应理论的模型有二十多种，并且一些有志之士还不断研发一些扩展模型。笔者总结出项目反应理论模型在语言测试应用中的种类、应用于语言测试的项目、任务，所分析的因素和所用软件，见表一：

表一 IRT Analysis in Language Testing

TypeofModelsLogisticmodel:1Parametermodel2Parametermodel3ParametermodeEg.ItemresponsetheoryLikelihoodratiomethodItemresponsecurvemodelsRaschOne-parametermodelMulti-facetedRaschPolytomousRaschmodelBayesianmixturemodelPartialcreditmodelRaschrating-scalemodelDichotomousRaschModelTheRaschUnitscoreRaschprinciplecomponentanaly-sesLordmodel:2Parametermod-el3Parametermod-elTestTypeUsedProficiencytestDiagnostictests,Unittest,TermTestCareerAssess-ment,VocationalqualificationstestTestItemUsedVocabulary,GrammarReadingcomprehention,Listningcompre-hention,EesaaywritingComputerizeda-daptivetestingTestTaskUsedMultiple-choiceDictationClozeModelsforRe-searchandFac-torsTobeAna-lyzedTheoreticalinterpretationFactoranalysisComputerizeda-daptivetestingTheoreticalComparisionGeneralizabilitytheoryTheprincipalcomponentsanalysisLinearGrowthModelingandRaschAnalysisDifficultyindexestimationValidityanddiscriminationanalysisAssessingthedependabilityRatingscaleAnalysisofratings,AnalysisofratereffectsAnalysisofstudent'sabilityPsychometricsItemdependencyInter-itemcorrelationsConstructingani-tembankTestletmodelItembundleSoftweresusedWinsteps,Facets,Multi-facets,Bilog,etc

项目反应理论在20世纪30、40年代已经有了初步的架构，心理计量学家Tucker在1946首创使用试题特征曲线Item Charactristi Curve,简称ICC，使这一名词逐渐成为试题反应理论的中心概念。经过数十年的技术发展，Lord(1980)发表第一部以《项目反应理论》为名的专著，以项目反应理论为其中心架构的当代测验理论正式宣告诞生。

项目反应理论在引入语言测试的应用后，随着理论和模型的不断发展，研究人员从开始的疑虑，到如今对此项研究热情高涨。研究成果涉及理论阐释，与经典测试理论及其他理论的比较；模型的开发，对测试各因素的分析；计算机适性测试的开发等方面。

1.确定评价指标体系和评价标准。运用AHP法，提取课程教学质量评价的关键因素，并理清彼此之间的制约关系，构建多层次的评价指标体系。利用模糊评价法确定评价标准，如优、良、中、及格、不及格等。

理论阐释与经典测试理论及其他理论的比较研究诸如Al-Owidha(2007)[9]谈到：今天,项目反应理论越来越成为开发大规模标准化考试主要的测试框架。项目反应理论的许多优点让这个框架成为最好的测试模型。例如,除了项目反应理论的主要优势和优于经典测试理论(如,不变性)外,项目反应理论应用于测试数据可以改进测试编制,测试等同,识别潜在的偏颇测试项目,计算机自适应测试和项目库。

应用于测试效度的问题的研究如：Westfall(1988)[10]研究调查了Rasch心理模型在改善法国入学语言测试效度。作者将三个模型：多向度模型、多元回归、判别分析模型,与先验理性的加权方案、三个一维的能力估计程序：原始分数,Rasch模型分数(不拟合测试项删除),五个测试干扰(猜测,测试启动焦虑、马虎、项目内容和人互动,和缓慢)和Rasch模型修正得分作比较。

因素方面的分析，诸如：Kimura(2011)[11]运用Rasch主成分分析法调查了学生在外语听力测试的焦虑问题；Tsai(2004)[12]运用多层面Rasch模型调查了二语写作技巧与二语写作能力之间关系；Kikuchi(2011)[13]运用Rasch评定量表模型分析了日本中学生英语学习兴趣的因素； Murray(2012)[14]运用IRT暨Rasch单元总分模型类测量学生的成就和进步； Pae (2012)[15]运用卡方检验和项目反应理论似然比检验法研究追踪韩国大学九年段跨三个数据点学术水平英语学习能力测验(KCSAT)中性别差异项目功能(DIF)。

应用于评分员效应、评分的分析如：Yang(2010)[16]运用多层面Rasch模型分析北美一所大学英语口语水平测中评分员的评分严厉度对测试分数的影响；而Schaefer & Edward(2004)[17]运用多层面Rasch模型和问卷调查的方法分析以英语为母语的教师给日本英语作文评分的分析；Davis(2012)[18]分析了培训和经验对评分员的影响。

分析测试项目和任务如：Jones(1993)[19]描绘了如何建立英语语言水平测试项目库，用Rasch 项目反应理论将千余种不同水平的项目放在单一难度的尺度上进行心理特质的分析。特别编制的软件支持计算机自适应测试，有着比往常更多样的任务。

语法测试如:Tang(1992)[20]研究在课堂英语语法测试中Rasch部分给分模型中的运用。

美国协作暑期图书馆项目（Collaborative Summer Library Program，简称为CSLP）始于1987年，是一个由各州共同组成的联盟，共同为儿童提供高质量的暑期阅读计划材料，以最低的成本为公共图书馆服务。目前CSLP拥有来自美国全部50个州的代表，包括哥伦比亚特区、美属萨摩亚、百慕大等地区的代表也加入其中。虽然是一个公益性组织，但CSLP具有严格的组织体系，有董事会和各种委员会。

二、项目反应理论在语言测试应用研究的发展动态

(一)国外的研究情况

国际语言测试的专业期刊《Language Testing》是在1984年建刊的。笔者检索了《Language Testing》(1984年以来)项目反应理论在语言测试各个层面应用的研究文章，以窥见三十多年此项研究发展的历程，通过对这些文章分析探讨了国际语言测试研究的情况。图二反映了《Language Testing》期刊各年代IRT发表的文章数。

图二《Language Testing》期刊IRT文章数

项目反应理论在语言测试中的应用研究也是始于20世纪80年代初期。建刊的80年代就发表与IRT有关的研究文章10篇，20世纪90年代发表相关文章22篇，21世纪第一个10年文章发表了18篇，第二个10年，笔者只统计到2016年，文章数就已经达到22篇了。可见项目反应理论已得到学界的关注、接受和重视，进入了系统的、稳定的、科学化研究的阶段。

笔者进一步梳理、归类以上文章与IRT有关研究的内容，研究此内容的文章篇数及占文章总数的比例(内容有交叉)。结果如下：

表二《Language Testing》期刊IRT文章主要内容研究明细

研究的内容篇数占百分比%理论阐释1214项目反应理论概论2632IRT曲线模型22.4IRT似然比检验法11.23Rasch模型89.87多层面Rasch模型78.64部分给分模型33.7因素分析22.46维度56.17信度44.93效度911.1难度78.64区分度44.93评分911.1评分员22.46项目78.64口语56.17听力56.17写作22.46阅读1012.34翻译11.23词汇33.7能力11.23潜质11.23计算机自适应测试22.46

(二)国内的研究情况

笔者检索了国内CSSCI收录的外语类期刊，统计出语言测试中运用IRT理论的情况。国内主要外语类语言测试期刊发表IRT文章从1999年起到2016年有34篇，分别是：《现代外语》6篇，《广东外语外贸大学学报》2篇，《外语电化教学》5篇，《外语测试与教学》8篇，《外语界》1篇，《解放军外国语学院学报》2篇，《外语教学理论与实践》1篇，《外语与外语教学》3篇，《中国外语教育》3篇，《中国外语》一篇，《当代外语研究》1篇，《外语研究》1篇。见图三：

图三国内主要外语类期刊IRT文章发表统计

研究涉及项目反应理论分析的主要内容有：理论阐释3篇，项目反应理论5篇，Rasch模型3篇，多层面Rasch模型23篇，信度分析5篇，效度5篇，涉及评分方面18篇，评分员效员效应7篇，口语方面5篇，写作方面12篇，阅读一篇，翻译2篇，计算机自适应式测试3篇。(注：内容有交叉)见图四：

对于9例内翻性乳头状瘤而言,其病变仅仅是在鼻道窦口复合体以及筛窦、上颌窦的内壁,而基底处于鼻腔外侧壁,使用等离子刀在距离肿瘤基底0.5厘米处进行手术,需要注意的是,将刀头置于肿瘤基底和鼻腔的外侧壁骨面间,缓慢切除的同时利用刀头进行剥离,一直持续到肿瘤基底边缘黏膜被完全切断,能够完整的将肿瘤取出,对周边存在的不安全创缘加以消融,直至到满意的安全界限,将增生的骨质加以磨除。

图四国内主要外语类期刊研究涉及项目反应理论分析的主要内容

国内IRT理论在语言测试上的运用研究迄今为止还不够广泛，从时间上来看研究主要是从21世纪开始，相对起步较晚，虽然也有一定数量的研究成果，但是相对庞大的成果总量，比例还是较少的。

四、结语及对我国研究者的启示

(一)结语

项目反应理论提出的方法，如适性测验、测验独立被试测量，不需要运用平行测验这一概念，项目特征曲线明确表示出被试能力与项目的关系和直接用项目参数代替了项目统计量等解决了经典测试理论许多未能解决的问题。通过对国内外IRT在语言测试文中应用的文献进行梳理和研究，本文得出以下结论：

1.进入20世纪80年代以后，学者们对项目反应理论的研究不断高涨，尽管在前期学者们对其理论存在不同看法,争论不断，被称为“Rasch战争”(Henning，etal，1985[22]，McNamara & Knoch，2012)[23]。众多学者孜孜不倦地致力于发展、改进其理论，特别是随着多层面Rasch模型(MFRM)的开发，到了2000年，项目反应理论得到完全接受(McNamara &Knoch，2012)。Bachman在世纪之交发表的总结20多年来语言测试的文章中说到：项目反应理论，一种度量模型,使我们能够估计项目的统计特性和考生的能力,已成为一种广泛使用的语言测试研究工具。Rasch模型，以它多样的形式，依然是语言测试研究应用最广泛的工具(Bachman, 2000)[24]。

2.项目反应理论的各个模型已经广泛运用于包括大规模水平测试在内的各类语言测试中。正如以上的统计分析，项目反应理论的多种模型不仅被用于听、说、读、写、译的各项任务和项目的效度、信度、难度、区分度、维度、潜质分析中，还用于评分、评分员和因素等分析中。

3.作为现代心理测量和统计工具，IRT模式暨Rasch模式牵涉到非常复杂的统计运算，因此有些模型有着配套的软件。ProQuest全球论文网、《Language Testing》期刊中论文用于语言测试的软件有： Winsteps——一种广泛使用windows平台的软件程序。它使用联合最大似然(JML)的参数估计方法。除了标准的用来测试人和项目的Rasch变量图像,并配合统计, Winsteps 还提供了许多先进的分析功能,如错误选择分析、主成分分析，为评估一维和残差分析的微分项功能。它报告表格、文件、情节和图表。

股骨粗隆间骨折对高龄患者无论是身心健康还是生活质量都具有严重影响，内固定材料的多样性使得临床治疗中在选择手术方案上分歧较大，本文将我院收治的100例高龄粗隆间骨折[1]患者作为本次研究对象，50例采用PCCP治疗其余50例运用PFNA治疗旨在比较两种不同治疗方法下所获得的临床效果。现报告如下。

突突突，突突突……底柱身后三挺马克沁突然怒吼起来，不到最后时刻，底柱是不动用高处这座碉堡内机枪的，这是五连的底牌，轻易不肯暴露目标。

Facets和Winsteps一样都是基于项目反应理论的单参数(难度系数)统计软件，分析考试成绩或问卷调查数学模型。区别是Facets主要应用于主观题，Winsteps主要应用于客观题。

变频发电时，增加1台4 000 kW发电机（6 kV/50Hz）和 1台 4 300 kW电动机（3 kV/25Hz）及相应附件，变频机组转速107 r/min。变频机组约需250万元，增加厂房造价约60万元，相应辅助设备约需50万元，合计360万元，其余费用相同。

BILOG也是建立在项目反应理论基础上的试题质量分析软件，用于两分法(正确为0，错误为1)的试题分析，可以分析项目的难度、区分度和猜测度、铆测验等值法。

(二)对我国研究者的启示

从以上中外研究项目反应理论的文献对比来看，我国语言测试中项目反应理论的应用研究存在以下问题：

1.国内IRT在语言测试上的应用起步较晚，虽然有一定数量的成果，但是比较研究成果总量还是较少。

2.成果偏于应用研究，理论研究与模型开发较少。研究的方法也比较有限。迄今为止，国内语言测试有关项目反应理论的研究大多运用多层面Rasch模型与评分等有关的题材，对于本文前面提到的其他模型应用和内容研究涉及较少。

此外，研究队伍所具备的知识水平还有待于提高。对于心理测量技术和统计知识的缺乏，使得不少人对于项目反应理论运用望而却步。同时，配套软件获取的局限性，也制约了研究的热情。

时代要求语言测试研究者们应更多地掌握各种所需的知识、技能，尽快掌握新的、先进的学术方法，并且能够进行发展和创新。

[参考文献]

[1]刘润清、韩宝成：《语言测试和它的方法》(修订版) ，外语教研出版社，1999年版。

[2]Ronald Jay Cohen et al. Psychological testing : an introduction to tests & measurement Mayfield Pub. Co.c, 1988.

老道忙向王祥打眼色，王祥会意，从一旁拿出一张居家旅行必备的折凳放在胖子身侧。胖子也不推辞，随意地坐了下来。王祥和老道也松了口气，要是看看就走了的客人，他们又得多费些口舌，看来旗开得胜，把胖子给留住了。

[7][23]McNamara, T., Knoch, U. The Rasch wars: The emergence of Rasch measurement in Language Testing, 29(4), 555-576, 2012.

白酒中硫化物因其阈值低的特点，能在极低含量下影响白酒的风味，近年来，有研究者不断在优化实验手段的前提下检测到新的含硫物质，这对白酒风味的研究具有较大的作用。

[5]Lord, F.M. Applications of item response theory to practical testing problems. Mahwah, NJ: Erlbaum, 1980.

[3]RK Hambleton，H Swaminathan Netherlands. Assumptions of Item Response Theory，Springer 1985.

[6]Lord, F., M. & Novick, M. R. Statistical theories of mental test scores. Reading MA: Addison-Welsley Publishing Company 1968.

试验动物选用42周龄海兰褐蛋鸡1 000只。试验共进行53 d，其中预饲9 d，正式试验40 d。试验结束后过渡4 d。所有试验鸡都笼上饲养。其它管理按常规进行。

[4]Hambleton, R. K., Swaminathan, H. & Rogers, H. J. Fundamentals of Item Response Theory. Newbury Park, CA: Sage Press. 1991.

曾有人担心地球的镍资源十分匮乏，究竟是不是这样呢？近年，经过国际镍协会的数据统计，目前地球上拥有较为丰富的镍金属资源，能够满足全球各个国家可持续发展的需求。从数量上来看，除去深海储藏量，仅陆地上大概就有3亿 t的镍矿资源，而目前全球镍的使用量大概在200万 t左右，即使以每年3%～5%的数量增长，现有的镍存储量也足够支撑使用数量。陆地上的镍矿主要是红土镍和硫化镍。红土镍矿主要分布在赤道周围，目前现存的陆地红土镍矿和硫化镍的比例大概为6∶4。在世界上很多地区都有镍的分布，其中，中国和印度尼西亚是镍的主要储藏和生产基地。红土镍矿在中国主要用于制造镍铁类的产品，比如不锈钢。

[12]CHL Tsai, Constance Hui Ling.Investigating the relationships between ESL writers' strategy use and their second language writing ability ProQuest Dissertations Publishing, 2004.

[9]Al-Owidha, Amjed A A comparison of the Raschmodel and the three -parameter logistic model applied to the quantitative subtest of the General Aptitude Test, Saudi Arabia ProQuest Dissertations Publishing, 2007.

[10]Westfall, Philip Jean-Louis，Re-estimation of student ability in foreign languages using the Rasch model，1988.

[11]Kimura, Harumi.A self-presentational perspective on foreign language listening anxiety. ProQuest Dissertations Publishing, 2011.

[8]李久亮：《Rasch模型在中国应用研究回顾》，《广东外语外贸大学学报》，2016年第2期。

[13]Kikuchi, Learner perceptions of demotivators in Japanese high school English classrooms, 2011.

技术和语言测试如：Stansfield(1985)[21]收集了年度语言测试报告会的研究论文，包括计算机自适应测试、英语作为非母语测试中试题偏颇性计算机化的Rasch分析等。

[14]Murray, Kimberly K, Planting seeds in rich soil: A quantitative study of the reading and math growth of gifted and talented learners, 2012.

[15]TI Pae, Causes of gender DIF on an EFL language test: A multiple-data analysis over nine years Language Testing, 29(4):533-554, 2012.

[16]Yang, Rui，A many-facet Rasch analysis of rater effects on an Oral English Proficiency Test, 2010.

单一的技术能力不能够满足企业用人需求，例如：java方向、不仅有java的教学内容，还需要前端开发技术、数据库、设计模式与架构、高并发与分布式技术、数据结构域算法。无经验的开发者都没有任何竞争优势，因此教师课堂教学有必要让企业中的项目案例，让学生在学校就满足企业要求的项目实战经验。再者，学生多元化的学习需求倒逼单一讲授教学模式的淘汰，教师应从教学方法进行改革，探索提高“教”与“学”效率的教学模式，如探索MOOC新型在线教学模式。

[17]Schaefer, Edward Jay, Multi-faceted Rasch analysis and native-English-speaker ratings of Japanese EFL essays, 2004.

[18]LE Davis，Rater expertise in a second language speaking assessment: The influence of training and experience,2012.

[19]Jones, N. F.,An item bank for testing english language proficiency: using the rasch model to construct an objective measure,1993.

[20]Tang, Huixing, Use of a response-process-oriented approach and partial credit IRT model for designing an ESL grammatical proficiency test, 1992.

[21]CWE Stansfield， Technology and Language Testing. A Collection of Papers from the Annual Colloquium on Language TestingResearch (7th, Princeton, New Jersey, April 6-9, 1985).

其中，矿石矿物主要有毒砂、黄铁矿、褐铁矿、自然金；脉石矿物主要为石英、绢云母、白云石、方解石。矿石结构主要有自形粒状结构、半自形粒状结构、他形粒状结构、草莓状结构、交代结构、包含结构、变余显微鳞片泥质结构等。矿石构造主要有浸染状构造、脉状穿插构造、斑杂构造[6]。矿体围岩蚀变较明显，主要有硅化、绢云母化、碳酸盐化、黄铁矿化、毒砂化等。矿石主要为浸染状压碎岩型。主要含金矿物为毒砂，Au元素以细小的自然金的形式被毒砂包裹。

[22]Henning, G. Hudson, T & Turner, T., Item response theory and the assumption of unidimensionality for language tests. Language Testing, 2: 117-140, 1985.

[24]Bachman, L. Modern language testing at the turn of the century: Assuring that what wecount counts. Language Testing, 17(1), 1-42, 2000.

地理教学中尤其要注意地理概念描述的专业性，为学生以后的学习留下良好的学科素养和学科习惯。要注意容易混淆的概念：比如“地势”与“地形”、“天气”与“气候”“海拔与高度”等不能相互替代；要注意相关词汇比如“温度”、“温差”、“均温”、“气温”等的表述；以及“增加与增长”，“集中与集约”，“聚落与聚集”的区别等等。再比如在人口合理容量一节中，对人口容量、人口合理容量和环境承载力的区别与联系的讲解中，地理教学语言更应言之有序，条理清楚，重点突出。

作者

韩江红，刘畅

出处

《江苏师范大学学报(哲学社会科学版)》 2018年第02期

上一篇：易地扶贫搬迁安置的路径——来自西藏的调研分析

下一篇：翻转课堂与高校古代文学教学改革的探索与实践

《江苏师范大学学报(哲学社会科学版)》2018年第02期文献

中国的留学教育与“一带一路”倡议研究作者：周棉，高原

首位中国留美大学生曾兰生述评作者：冯国平，宾睦新，沈荣国

张綖家世述略作者：闵定庆，张洲

理学诗人汪莘考论作者：王昕

“古典”与“浪漫”之兼美——中国现代文艺审美理想之建构作者：潘水萍

哥伦比亚大学藏毛泽东宋庆龄等抗战书信真迹的发现及解读作者：王海龙

周恩来对台决策的雄才大略作者：赵书刚

农民、历史、现代国家想象——20世纪50年代农民识字课本中的现代民族国家建构作者：孙莹

中国传统金融的“内生”特征与近代转型——基于银号与票号的对比分析作者：左海军

第三方评估提升政府绩效的理论框架与研究展望作者：马亮

京杭大运河遗产活态保护与适应性管理作者：刘庆余

新媒体时代下医院突发事件舆情应对研究——以徐州市“丢肾门”事件为例作者：董晗旭

论习近平家庭建设思想的基本内容作者：朱漪

习近平互联网发展思想初论作者：郝其宏

略论汉代绘画与两汉哲学思想作者：许文菲

“内在贯通论”视域中《资本论》的哲学性质新探作者：陆云

长江内河港口铁水联运的发展战略及潜在效益探究——以武汉阳逻港为例作者：曾刚，徐宜青，王秋玉

易地扶贫搬迁安置的路径——来自西藏的调研分析作者：徐爱燕，李芳慧

项目反应理论在语言测试中的应用研究作者：韩江红，刘畅

翻转课堂与高校古代文学教学改革的探索与实践作者：葛恒刚

杂志信息网