快捷分类

基于数理统计方法的试题质量的科学评价与分析

更新时间：2009-03-28

试题质量分析是学校教学质量管理工作的一个重要环节,对于指导教学工作和提高教学质量有着十分重要的意义本文在前人研究的基础上,建立了试题质量分析的数学模型，利用数理统计的方法对试卷质量分析常用的四个指标：信度、区分度、难度、效度、进行了更加深入的分析和比较，为进行教学测量提供了科学有效的定量分析方法。

另外，科研成果具有时效性，若科研成果未在时效期内转换成实际生产力，就失去了价值。当前高校和企业之间更多采用传统的合作模式，技术信息的传递不能保证实时性，一部分科研成果只是以理论成果的形式存放在学校科研管理部门，在科研成果转化推广的过程中，学校、企业、个人之间缺少信息实时流通的平台，在时间和空间上存在节点距离[2]。

考试成绩能否反映教学质量与试题质量密切相关。命题过偏或过难，会使考生成绩降低；命题过易，会使考生得分很高，试题是否科学、准确，它们在多大程度上是有效和可靠的，单凭主观臆测来回答这些问题是不科学的，显然用统计分析的量化指标检验试题质量并进行科学评价对提高教学质量至关重要，同时也为试题库的建立，筛选不同层次的体质试题提供了理论依据。检验试题质量的主要量化指标为信度、区分度、难度和效度。下面分述如下：

一、信度的概念及量化方法

（一）信度的概念

测试的信度是指测试结果的可靠性与可靠程度。通常有3种信度系数:定性、信度、等值性信度及内部一致性信度。

（二）信度主要计算方法

内部一致性信度的具体的计算方法是首先将试题分成两半,根据各人在两半中分数的相似度来计算其信度系数再用spearman-Brow （斯皮尔曼-布朗）公式即折半信度公式对其进行较。其中r表示整个测验的信度。此公式的意义在于:由于用折半法求得的信度系数,实际上等于把整个试卷长度减少一半,所以用此方法求得的信度必然低于整个测验的信度,故用此公式来提高信度的准确性。然而,此方法须假定两半之间的场数、标准差、难度、区分度、分布形态上以及内容上相同。这点很难保证,于是经过进一步的研究,克朗巴赫(Cronbanch)提出一种信度系数的计算方法。这种方法是指试卷分数的总方差在排除各小题的误差后，余下部分占总方差的百分比,即,

称a为克朗巴赫信度系数，其中a2为考生成绩的方差。

n--试题个数，

Fj为第j个题目的满分值(j=1,2,…m)。显然

2.器械及药品：肠电生理起搏使用便携式胃肠起搏治疗仪(重庆腾跃医疗器械有限公司)；生产许可证号：渝食药监械生产许20110037号；标准编号：YZB/渝0035-2013。莫沙必利片采购于鲁南贝特制药有限公司(5 mg×24片)。比沙可啶肠溶片采购于Boehringer Ingelheim公司(5 mg×20片)。

xij为第i个考生第j题的得分(i=1,2,…n,j=1,2,…m)。显然，第i个考生的得分为第j题的平均值和均方根分别为：

（三）信度评估标准

信度描述了试卷的总方差在排除了随机误差之后，余下部分占总方差的百分比，各题随机误差小，则试卷信度就高。反之，则信度降低。一般情形，信度达0.4以上即可。

另外试卷加长后，随机误差较小，猜测出答案的影响较小，信度提高；分数分布范围宽，标准差大，信度较高；试卷难度较大或较易，会对信度产生影响；还有对试卷应有标准答案和评分标准，若评分者对解题步骤估评不同，会对信度产生影响。

二、区分度

（一）区分度的概念

区分度是指测试试题对考生实际能力和知识水平的区分程度,是将考生区分开的统计量。区分度指难度高的试题可以将不同水平和能力的学生区别开了,使能力高的学生得分高,能力低的学生得分低,而区分度指标低的试题通常不能对学生的能力进行很好的鉴别。

构想效度是指测试成绩所能解释心理学理论上的某种结构或特质的程度,主要适用于心理测验效度的确定。在此,本文不加研究。效标关联效度是指测验分数与作为效标的另一独立测验结果的一致性程度,对通常的课程考试来说,可将学生的平时成绩作为一个效标,考察考试成绩与平时成绩的关联程度,计算公式即是相关系数计算公式如下所示：

（二）区分度的计算方法

将试卷分数分为高分组及低分组两组，则区分度

将j题分数有序排列，高分组和低分组各占被测团体人数的25%～30%。若dj＞0.4为质量高的试题；若0.2＜dj＜0.4为适中试题；若dj＜0.2为质量差的试题。

式中：Hj――高分组考生第j题得分的平均值

Lj――低分组考生第j题得分的平均值

Fj――第j题的得分

（三）区分度的评估标准

建筑作为一种文化现象能与人产生交流[1]6是毋庸置疑的。相比以使用功能为主导的旅店，这种文化交流现象在民宿身上有更好的体现[2]。

三、难度

（一）难度的概念

由于实验人员的运动速度会逐渐加快,当运动速度大于3 m/s后,每组之间安排休息时间,在休息时间内停止跑步机,使实验者在跑步机上站立休息。每种速度下持续运动120 s,截取第2 min内的惯性数据作为该速度对应的有效惯性数据存储。因为跑步机的加速需要一个过程,应当记录的是实验者运动速度稳定后的数据。每位实验者的实验时长大概40 min。从每位实验者数据中获取的有效数据时长660 s左右。经过以上过程,12位实验者共获取的有效数据时长为11 071 s,约184.52 min。

（二）难度系数的计算方法

如果我们要衡量某个试卷的难易程度就需要对试卷中的各个小题所得的分值进行考察，例如要考察第n个题的难易程度，其难度系数公式为

试卷的难度是指测验题目的难易程度,它是题目对学生知识和能力水平适合程度的指标。它和区分度都是衡量试卷质量的最主要的数量性指标,当然,对难度的分析,我们也可采用最简单的观察法;即观察测验分布状态。如果测验分数的全距大,又没有零分或满分,测验的平均分数在测验分数分布范围的中间或接近中间位置上,就可以认为该测验具有适宜的难度,教师自编的测验进行难度估计也可采用这种方法。然而这种方法只能对难度有个定性的分析,并不能对难度进行定量的分析。

式中：fj――第j个学生第i题所得的分数

m――学生总数

1) 该铁钻工底座回转机构选定的驱动齿轮齿数z1=18，行星轮齿数z2=31，内齿轮齿数z3=80，则传动比i12=1.72，i23=2.58。

随着网络的发达，电子商务渐渐火热起来，这一节日就被商家所利用，以光棍为嚎头制造单身人士要在这一天购物的气氛。2009年淘宝商城的管理层首次将11月11日选用为淘宝购物狂欢节，造就了高达0.5亿元的销售额，从此，“双十一”被越来越多的消费者铭记，“双十一”所产生的销售额逐年攀升。这种从节日到节日的文化转型为“双十一”的成功塑造解决了尤为关键的一步，让众多消费者尤其是作为新世纪知识分子的大学生一代以最快的速度接受并记住。

（三）难度系数评估标准

如果难度＜0.2则说明第i题为容易题，如果＞0.8，则第i题为难题，如果难度为0.2～0.5之间，说明该题属于中等难度题，如果难度为0.5～0.8，则说明第i题为较难题型。为了衡量一套试卷的难易程度的合理性，要求试题中各个小题的难度系数分布应符合正态分布，否则说明该试题难易程度不合理。

四、效度的概念及量化方法

（一）效度的概念

效度是指评价考试结果的有效性与正确性的指标。也叫平均区分度：公式为

F――第i题的总分值

M――考生总数

dj――区分度

一般要求c＞0.4为质量高的试卷，0.2≤C≤0.4尚可，c＜0.2为差质量试卷

东北的冬储在发生改变，从由大批发商、基层零售商、农民组成的链条式储备转向了由大批发商、中小型复合肥企业组成的上游储备。目前，东北地区基础化肥缺口较大，但化肥价格继续上涨的动力不足，后市以窄幅波动为主。

（二）效度的类别

效度是指测验能多大程度上实现测量目的。一个测验若无效度,则其他任何优点都无法发挥其真正的功能。效度有三个类别:内容效度、构想效度和效标关联效度。

内容效度是指测量内容与预定要测的内容之间一致性的程度,因此,一个测验要有较高的内容效度必须具备两个条件:一是测验内容范围明确,二是取样具有代表性。

测验内容范围明确是指测验必须明确界定所要测验的内容范围。也就是说测验题目必须吻合教学内容,依据教学大纲,把握教学大纲所界定的重难点,同时,教学目标必须由试题明确反应出来,对于这一点,本文认为可将试卷内容与双向细目表比较,计算其吻合分值,这样可以大概估算内容效度的高低,但不能得到精确的指标,只能进行定性分析,无法定量分析。取样具有代表性是指测验题目对预测的全部内容的覆盖面积要大,也就是说试卷中题与题的关联程度要小,这样会使题目所覆盖的知识点多。

在调研样地的选择上,遵循区域全覆盖、植物群落类型多样性、样地典型性等原则,结合环城绿带标段划分及各标段竣工图,从中选出49个典型样地,覆盖宝山、闵行、嘉定、浦东等7个区。

式中m――考生总数

MWJ-2418智能门窗保温性能试验机的基本原理为标定热箱法测定传热系数，热箱内的电加热器散热量为总热量，将总热量减去热箱向环境空间的散热量和试件框的热损失，即为热箱热量通过试件向冷箱传递的热量.根据两侧传热量、两侧空气温度以及试件面积，便可求得传热系数K值.

ai――第i个考生的考试分数

第二，加快民生水利建设进程。一是加强以高效节水为重点的农田水利建设。新建农业高效节水面积300万亩。二是完成剩余142项定居兴牧配套骨干水利工程建设；再解决60万农村人口的饮水安全问题，推进城乡一体化供水；加快大中型灌区节水改造、大中型病险水闸除险加固建设；加快13个水电新农村电气化县、小水电代燃料和水电增效扩容工程建设；继续加强水产工作。

bi――与效标资料的相关分数

（三）效度评估标准：

当相关显著时，说明该次测验是能够反映受验者受验的实际情况和实际能力水平的；反之，就表示这次测验所得受验者的成绩反映的受验者实际水平很不明显，就很难达到测验目的，一般认为系数在0.45以上为合适。

五、小结

在以上四度中，效度是首位，信度是必要条件，但不是充分条件，信度高，效度不一定高，而信度不度，效度不会高。一次考试，若没有较高的效度，本身主失去了意义，更谈不上进行成绩分析。要保证试卷有较高的效度，应科学命题，结合课程标准，教材和学生的具体情况，确定各章节内容和认识水平之间的比例关系，编制考题，形成完整的高质量的试卷。

综上所述，试题质量分析是学校教学质量管理工作的一个重要环节,对于指导教学工作和提高教学质量有着十分重要的意义。传统的试题质量评价大都是从理论上和教学评价专业层面上研究的。近年，试题质量评价也逐渐从定性分析转到定量分析上来。只要掌握了原始数据，对试卷质量进行信度、区分度、难度、效度四度分析和比较，即可对试卷命题质量进行科学合理有效的分析，因此，采用数理统计分析方法对命题质量进行教学测量是切实可行的，它是推进教学改革、提高教学质量、实现素质教育诸多环节中非常重要的要素。

课题名称：《基于数理统计方法的试题质量与考试成绩的评价分析研究》

课题编号：LZY17565

参考文献：

[1]曹树聪,李长国,郭彦,刘声标.考试成绩的非正态分布性研究[J].军事交通学院报,2009,(11): 70—73.

[2]熊德之,刘为凯,宁小青.基于数理统计的试卷质量分析方法[J].武汉工程大学学报,2007,(1): 78—80.

[3]蔡静,吕蕴霞.用数理统计方法评估试卷质量[J].烟台师范学院学报(自然科学版),2004,20(4):257-259.

[4]刘淼.用数理统计的原理评估试卷质量[J].大学数学,2009, (4):164—168.

[5]张雅清.数学试卷质量的统计分析[J].太原师范学院报(自然科学版)2009,(9):26—28.

作者

张玲

出处

《内蒙古统计》 2018年第01期

上一篇：从基层统计视角对贸易统计工作的思考——浅析目前贸经统计报表工作存在的问题

下一篇：避免同质化趋向积极探索内蒙古差异化农产品发展之路

《内蒙古统计》2018年第01期文献

2017年内蒙古经济转型升级成效明显作者：杨力英

全区主要经济指标(2017年12月） 2009/03/28

把握新时代践行新思想全力推进统计改革建设取得新成效——胡敏谦局长在全区统计工作会议上的讲话作者：内蒙古自治区统计局

加快协同步伐共谋跨越发展——呼包鄂区域协同发展SWOT分析作者：高燕

服务业规模持续扩大发展步伐明显加快作者：代秀琴，杜勇慧

实施乡村振兴战略加快产业兴旺发展作者：王艳伟，王景峰

大数据——新时代包头市经济发展新领域作者：黄春艳，程昱静

加快建立现代产业体系推动经济持续健康发展作者：刘雪梅

从基层统计视角对贸易统计工作的思考——浅析目前贸经统计报表工作存在的问题作者：王瑞平

基于数理统计方法的试题质量的科学评价与分析作者：张玲

避免同质化趋向积极探索内蒙古差异化农产品发展之路作者：尉强

航拍清点技术全面应用于冬季牧业普查的调研分析报告作者：杨立林，郝军，于丹

苏尼特右旗非公有制经济发展现状、问题及对策作者：齐日迈

网购环境下锡林郭勒盟消费净流出现象探究作者：郭峰

探析高铁对呼伦贝尔市经济社会发展的影响作者：苗永新

我国慈善事业进程中的难题与对策作者：霍姗姗

促进我国养老机构发展的税收优惠政策研究作者：沈志远

企业层面的乳品质量安全管理动机及对策研究作者：郝晓燕，胡静丽

基层统计工作存在的问题及提升基层统计工作的几点思考作者：云英

对赤峰市旅游业发展现状的对策分析作者：姜振校，刘志慧

砥砺奋进七十年沧桑巨变乌后旗—─ 写在内蒙古自治区成立70周年之际作者：李峰

鄂尔多斯装备制造业转型促进作用初显存在问题不容忽视作者：边丽

对乌拉盖管理区特色旅游商品发展经营状况的思考作者：彭聚睿，宋海霞

乌兰察布市能源行业发展问题浅析作者：薛强

杂志信息网