更全的杂志信息网

基于GM(1,1) 试卷难度系数修正模型的学生成绩预测

更新时间:2009-03-28

随着科技数据信息的发展,探索新的教学方法、前瞻性数据化建设校园是校方义不容辞的责任。合理运用信息技术能有效地解决教学中许多问题。目前中小学对数据的应用多限于成绩查询和一些常规统计,如平均分、及格率、最高分等。这些描述性统计分析只是某一次考试当前情况的体现,无法挖掘数据中存在的关系和规则,无法根据现有的各项数据预测学生成绩以及学生今后发展趋势。本文通过与中学老师的沟通,了解中学考试成绩展现特性,结合当前考试形式,对学生成绩进行整理分析,通过搭建数学模型,实现对学生最终中考成绩进行预测分析,并选取贵州省贵阳市花溪区第一中学(简称花溪一中)考试成绩进行分析,验证模型有效性。

1 数据预处理

数据来源于花溪一中2017届学生初中各次考试成绩(以下简称学生成绩)。考虑中考科目为:数学、语文、英语、理综(物理、化学),故选取花溪一中2017届学生8年级至9年级数学、语文、英语、物理、化学成绩进行整理,统计共634名学生的成绩。为方便数据读取和分析,引入一些符号标记对原始各次考试进行重新标记,例如:“数学分数81”表示“八年级上学期期末考试成绩”,“数学分数911”表示“九年级上学期第一次月考数学成绩”,其他类似。表1展现了整理后的数学成绩的部分数据。

 

1 数学成绩部分数据展示

  

序号姓名考号数学分数81数学分数82数学分数911数学分数912区考数学适应考数学1张某珊5611501501321421211392何某宇560133.5145.51121031261183陈某昀751142.51171361241351414张某伟5581231268784831155彭某飞64610270.5524568956袁某璐26315012910198121123︙︙︙︙︙︙︙︙︙634罗某语1347139.5145.5134119132124

1.1 缺失值情况分析

数据缺失值分布情况与分析结果息息相关,图1是数学考试成绩的缺失数据情况。图中,浅色为缺失值,深色为完整数据,图(a)体现各次考试的缺失数据量,图(b)展示缺失数据在整个数据中的位置。数学成绩总数据为634×16的数据框,其中616名的成绩数据完整有效,仅18名同学的数学成绩有缺失。缺失值共21个,占总数据量10144的0.21%,缺失率小于10%,指标的信息完整度均在理论范围内[1]

  

图1 数学成绩缺失数据总体情况

同样的方法,可得出各科成绩数据缺失情况如表2所示,数据缺失比率均小于10%,故不会影响分析结果。

 

2 各科成绩数据缺失情况表

  

科目总数据量完整数据缺失数据缺失值总数缺失值比例/%数学1014461618210.21语文1014462410100.10英语10144625990.09物理10144630440.04化学10144631330.03

1.2 缺失值补齐

结合花溪一中实际考试成绩情况,对学生考试成绩进行填补,同一考生缺失数据较多的予以剔除,最终建立634名考生成绩总表。为便于后期建模分析,选取学生八年级上下学期期末考试成绩、九年级全部数据及花溪区区考成绩和贵阳市适应性考试作为最终分析的数据,并对缺失部分予以补齐。常用的缺失值补齐方法有均值补齐法、中位数补齐法、众数补齐法等,结合学生成绩实际情况,采取均值补齐法。

对此,张凯深有感触,“我记得过去不管穿什么样的衣服,晚上到家都是油乎乎的。现在我们穿着白衬衣晚上回家依旧是白的。很多事情中国石油加油员都帮我们做了。”

2 灰色预测模型概述

2.1 灰色预测模型

灰色预测对既含有已知信息又含有不确定信息的系统进行预则,即对在一定范围内变化的、与时间有关的灰色过程进行预测。灰色预测通过鉴别系统因素之间发展趋势的相异程度,并对原始数据进行生成处理来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型,从而预测事物未来发展趋势的状况[2]

在充分使用数据的基础上,建立GM(1,1)模型,分别对考生各科成绩进行预测。

近年来,随着我国各领域科学技术的不断发展,给国民经济注入更多活力。测绘地理信息是开展社会活动和经济活动的重要保障,也是构建新型信息化管理模式的先决条件,先进技术不仅会对测绘地理信息统计工作产生助力,同时也在国安维护中发挥重要作用。我国测绘地理信息领域发展迅速,及时改进测绘地理信息统计方法,能够不断强化统计数据质量。在新形势下,要对测绘地理信息统计工作进行不断完善,保证数据安全,从而提高统计质量。

2.2 灰色预测GM(1,1)模型

:当求解出GM(1,1)的发展系数|a|≥2时,GM(1,1)模型无意义。一般地,当|a|<2时,GM(1,1)模型有意义[4]

 

式中:x(1)为经过一次累加生成的数列;t为时间;a,u为待估参数,分别称为发展灰数和内生控制灰数[3]。建模步骤如下:

表面感应淬火主要是利用电流的趋肤效应。感应加热时从工件表面电流最大值I0处测到I0/e(e为自然对数的底)处的深度,称为电流透入深度d(mm),计算公式如下:

(1)建立一次累加生成数列。设原始数列为

x(0)={x(0)(1),x(0)(2),x(0)(3),…,x(0)(n)},

i=1,2,…,n,

最后根据预测精度等级划分表(表3),检验得出模型的预测精度。

 

野外数据采集、内业数据处理是高层建筑物沉降监测的两大重要阶段,前者是对工程状态进行数据采集,以便及时获得客观、准确的变形数据;后者是对所采集的数据进行整理、归纳和分析,以真正起到工程安全监测和工程状态说明或预测的作用,采取合理的预防处理措施,确保沉降量控制在允许范围内。

 

yn=[x(0)(2),x(0)(3),…,x(0)(n)]T

参数au的估计为

GM(1,1)反映了一个变量对时间的一阶微分函数,其相应的微分方程为

(3)求出GM(1,1)的模型。

经调查,今年挂果的核桃青皮核桃平均为12000kg/ hm2,销售价格5元/kg,收入平均为60000元/ hm2,预计全县年收入达1.7亿元。

 
 

(4)进行模型精度的检验。常用的检验的方法有残差检验、关联度检验和后验差检验,本文采取后验差检验。

首先计算原始数列x(0)(i)的均方差S0,其定义为

 
 

然后计算残差数列的均方差S1,其定义为

 
 

由此计算方差比和小误差概率

 

按下述方法做一次累加,得到生成数列(n为样本空间)

(5)如果检验合格,则用如下模型

1)患者有阑尾炎手术史,且炎症较重,门静脉系手术或脾切除病史;2)患者在上述手术史后出现厌食,腹泻,便秘,恶心,呕吐,持续高热;3)患者术后腹痛持续,或间断发作,定位不准确,超声检查手术区未见明显异常,症状和体征明显不符合;4)患者出现黄疸症状,抗炎治疗后可轻微好转,考虑会有细菌性血栓形成,要仔细探查门静脉系统;5)腹腔肠间隙或肝下有包裹性积液,穿刺抽出不凝血或黄染性液体;6)肝内出现低回声炎性改变,严重者可形成脓肿;7)受累肠壁增厚,肠腔积液,蠕动减慢,小肠扩张大于4cm者。总结以上情况均应及时考虑门静脉-肠系膜上静脉的问题。

 
 
 

3 预测精度等级划分表

  

小误差概率p值方差比c值预测精度等级>0.95<0.35好>0.80<0.5合格>0.70<0.65勉强合格≤0.07≥0.65不合格

估计x(0)(n+1),x(0)(n+2),……,并进行预测。

3 学生成绩预测

3.1 普通GM(1,1)模型建立与检验

对缺失值填补后,整理得到各科学生成绩表,结合GM(1,1)模型,分别对各科成绩进行建模。以数学单科考试张某珊成绩为例,则有原始序列为

x(0) ={x(0)(1),x(0)(2),…,x(0)(6)}

后验差检验c=0.406259<0.65,p=0.5,模型预测精度等级为勉强合格。

由于

 

所以有

《唐风》是十五国风之一。 风,即音乐的调子。 十五国风,即十五个地区的音乐调子,和各个国家的领地并不完全吻合。 唐风,便是古代陶唐氏的区域,即山西晋南盆地大部分地区的音乐调子。 这也是晋国主要的领地。 十五国风中还有《魏风》,是中条山以南的地区,今山西芮城一带的音乐调子。 由于晋献公十六年才灭的霍、魏、耿,入晋较迟,所以说晋国文化的源头则需由《唐风》开端。

x(1) ={x(1)(1),x(1)(2),…,x(1)(6)}

={150,300,432,574,695,834}

 
 
 
 

(2)利用最小二乘法求参数au。设

 

得到GM(1,1)预测模型

 

为检验模型精度,进行后验差检验:首先计算原始数列x(0)的均方差S0

政府扶持社会力量参与社会治理是当前我国社会治理研究中主流的政策建议和价值判断,在基层社会领域,来自政府、市场和公民三方的力量如何实现合作,以何种方式合作便成为实践探索的方向和理论研究的重心。当大量的公共事务和公共服务推进到社区范围,仅凭社区自治组织无法将其传递和渗透到基层网络,或者说传统社会等级制的末梢无法有效嵌入基层社会。而政府为此扶持的大量社会力量在国家的政治、社会动员中又该以何种身份、地位和形式嵌入到基层社会网络中,这是当前基层社区治理结构架构的首要问题。

 

 

4 GM(1,1)预测结果及残差表

  

序列原始值x(0)(i)预测值x^(0)(i)残差ε(0)(i)相对误差/%1150150 0 0 2150143.6726.3280.0423132140.145-8.145-0.0624142136.7045.2960.0375121133.348-12.348-0.1026139130.0758.9250.064

于是有

前几天电视上播了一件事。一个七十岁的老太太卖房,合同也签了,人家买房的也给了两万块定金。没有过几天,看到房子还可以卖个更好的价钱,老太太就反悔了,说不卖就不卖了,而且违约金一分钱也不给。人家买房的拿她没办法,来请电视台出面调解。面对媒体,老太太竟还是理直气壮,就一句话,要命有一条,要违约金一分钱没有。电视上播这条消息时,主持人也看不下去,说这个老太太倚老卖老。我说句玩笑话,若是碰到刘大人,这个老太太大概就知道怕了,你不是七十岁吗,就打你七十大板。

 
 

由此计算方差比小误差概率

 
 
 
 
 
 

={150,150,132,142,121,139},

3.2 基于GM(1,1) 试卷难度系数修正模型的实现

为提高模型预测精度,通常会选取残差修正模型,但是在计算残差时,常常发现残差的波动较大,根据原始数据的特征会出现正负交替现象,即使用残差模型修正,也不能很好地改善拟合效果。通过实践发现,学生成绩数据与每次考试的试卷难度系数息息相关,所以在修正模型的过程中,通常先用GM(1,1)模型得到初始预测值同时计算该组预测值的残差ε(0)(i),取出残差的符号;接着计算各次考试的难度系数L,并将其与标准考试难度系数进行比较(标准难度系数一般在0.7左右[5]),根据比较差值,结合残差的符号(正号或负号)得到相应的调整系数β;最后用初始预测值与调整系数β相加,得到模型修正后的预测值其中“试卷难度系数”反映试题的难易程度,难度系数越大,题目得分率越高,难度也就越小,其计算公式为

 

式中:L为难度系数,X为样本平均得分,W为试卷总分。

仍旧以张某珊同学数学考试成绩为例,表5展示了具体模型修正过程。

 

5 修正模型各指标系数

  

序列原始值x(0)(i)预测值x^(0)(i)残差ε(0)(i)(仅取符号)平均成绩X难度系数L调整系数β修正后的预测值x^(1)(i)1150150 ————150 2150143.672+98.5550.6574.235147.9063132140.145-83.1390.554-12.469127.6754142136.704+79.0410.52713.679150.3845121133.348-90.4180.603-8.789124.5596139130.075+98.6920.6584.150134.225

注:“—”表示不存在。

得到模型修正预测值后重新验证模型精度,进行后验差检验,得到新的残差如表6所示。

 

6 模型修正后预测值及残差表

  

序列原始值x(0)(i)修正后预测值x^(1)(i)残差ε(1)(i) 相对误差/%1150150 0 0 2150147.9062.0940.01393132127.6754.3250.0334142150-8-0.0565121124.559-3.559-0.0296139134.2254.7750.034

同上述方法,得到

 

然后计算残差数列的均方差S1。预测残差及相对误差见表4。

(2)将种群中的50组解分别带入目标函数,得到全天的列车运行时刻表。计算出列车的全天能耗、变电站负载数据以及列车旅行时间,并将运行结果代入适应度函数,得到每组解的适应值。

 
 
 
 
 
 
 
 
 

后验差检验c=0.264121<0.35,p=0.833预测精度等级好,模型精度得到很大的提升。

类似方法对花溪一中全体同学所有科目进行建模及模型检验,部分同学数学成绩的各项指标如表7所示。

浙江省北部杭嘉湖地区位于太湖流域南部,西靠天目山,东接黄浦江,北滨太湖,南濒钱塘江杭州湾,总面积1.2万km2,占太湖流域总面积约33%。该地区共19个县(市、区),总人口近 900万,耕地 600余万亩(40余万 hm2),其地区生产总值占全省的近1/4,是浙江省国民经济最发达的地区之一。该地区是著名水乡,因水而生,因水而立,因水而兴,因水而名,因水而美,因水而强,水在地区经济社会发展中发挥着极其重要的作用。杭嘉湖地区水利设施建设历史悠久,水利综合治理开发为地区经济社会发展提供了重要的基础支撑作用,如著名的京杭运河穿越该地区腹地,还有古老的海塘等。

在二化螟蛾成熟期投放性诱剂,将雄性虫吸引后导致雌性产卵不孕,减少受精卵数量,降低孵化率,减轻危害。在使用二化螟性诱剂时,每亩地投放药剂3枚并将药剂放入塑料袋中悬挂在水稻苗上10公分。

 

7 修正后GM(1,1)模型预测结果及后验比检验值

  

序号姓名考号-a修正后预测值1预测值2预测值3预测值4预测值5预测值6后验比检验值小误差概率/%1张某珊561-0.0248150147.91128.03150.00124.56134.220.2683.332何某宇560-0.0363133.5134.04113.06107.03125.19116.400.3083.333陈某昀7510.0358142.5117.15137.94116.74126.39144.280.3983.334张某伟558-0.0304123109.3389.8285.2087.1297.180.4266.675彭某飞6460.118110255.3145.3651.0064.0086.070.24100.006张某杰8670.0644139.587.1276.2980.61109.36111.420.23100.007袁某璐2630.0075150116.91101.42100.71124.05120.280.25100.00︙︙︙︙︙︙︙︙︙︙︙︙634罗某语13470.0008119.25116.88127.59116.95124.91119.910.22100.00

经计算,所有数据的发展系数a均小于1,故均可使用GM(1,1)进行建模预测,通过残差符号结合难度系数得到各模型调整系数对模型进行修正,最终得到修正后的模型预测值,并进行新的后验比检验,结果除极少部分同学考试成绩波动特别大导致模型预测效果欠佳,其余均显示模型预测通过后验比检验和小误差概率检验,效果良好。

3.3 花溪一中学生中考成绩预测

综上可以用修正后的GM(1,1)模型分别对花溪一中学生中考单科和总分成绩(预测总分加上50分体育成绩所得)进行预测。首先对总分进行预测。据了解,贵阳市今年中考难度系数在0.75,以该难度系数为标准,对学生中考成绩预测,预测结果如表8所示(仅选取前50名展示)。

 

8 花溪一中前50名学生中考成绩预测结果

  

姓名学号总分姓名学号总分姓名学号总分姓名学号总分姓名学号总分代某玥1220624李某1204610宋某苑209603伍某瑶1205599周某1318594陈某琦1245620朱某锦1311610罗某远1234603闫某钊1321598龙某琪1206593国某晨1309618孙某佳1327610吴某漩901602周某薇701597王某娴848591龙某阳1326617陈某1231609黄某芳1303602陈某昀751597肖某文211590谌某罕1203613周某婷1301609卢某扬320601刘某彦1306597黄某茹349590安某乐1209613詹某寻1307609李某滢502601万某婷218596田某晴206589徐某阳1333613杨某怡133605彭某蓉1213601郑某710596唐某畅353589徐某1207612欧某文345605陶某佳126600刘某娜1211595陈某一1332589郭某1218611项某林1217605李某335600谢某程1319595刘某彤205588朱某瑜845610胡某梦1304604刘某扬1341600魏某161594章某翼342588

由预测结果统计:600以上约为30人。据最终花溪一中公布的2017年中考考试成绩(由于资源有限,仅获取了600以上同学总成绩和1班同学的各科目成绩),600以上为35人(含加分政策),根据修正后GM(1,1)模型预测出来的30人均包含在内。利用修正后GM(1,1)模型预测的花溪一中学生中考成绩分布如图2所示。

  

图2 花溪一中学生中考总分预测结果分布图

其次,对花溪一中学生中考单科成绩进行预测,表9展示部分同学各科成绩预测结果。

选择研究对象时主要考虑了以下4个方面的因素,即年龄、教龄、学历、所教学生。研究对象的基本情况,如表1所示。

 

9 部分同学各科成绩预测

  

序号姓名考号语文预测数学预测外语预测物理预测化学预测1姜某允10112311512074362蒋某然1021081145361223向某杰103113968764364周某凯104861094745345陈某闻105112105737436︙︙︙︙︙︙︙︙634邓某鑫13501251111206239

为验证预测结果的准确率,利用获得的1班同学的总分及单科成绩数据对预测结果进行误差分析,经计算总成绩预测的均方误差为:-4.866;语文、数学、英语、物理、化学的均方误差分别为:0.197、0.545、0.258、2.924,平均误差均不超过5分,说明模型预测效果良好。

4 结论

从学生成绩残差特性出发,提出一种基于试卷难度系数变化的GM(1,1)修正模型,这符合“灰色系统理论的研究对象信息不完全,准则具有多重性,模型非惟一性”的特点。且经实践表明,修正后的模型能提升学生成绩预测模型精度。在预测学生成绩时,可以推广使用。

参考文献

[1]COHEN J,COHEN P,WEST S G, et al.Applied multiple regression/correlation analysis for the behavioral sciences[J].Journal of the Royal Statistical Society, 2003,52(4):691.

[2]杨华龙,刘金霞,郑斌.灰色预测GM(1,1)模型的改进及应用[J].数学的实践与认识,2011,41(23):39-46.

[3]李梦婉,沙秀艳.基于GM(1,1)灰色预测模型的改进与应用[J].计算机工程与应用,2016,52(4):24-30.

[4]罗党, 刘思峰, 党耀国. 灰色模型GM(1,1)优化[J].中国工程科学,2003,5(8):50-53.

[5]何瑞林. 中考试卷难度系数7:2:1[N].扬州日报,2008-06-13(A03).

 
吴楠,胡尧,李小林,王丹,胡娟,李玉凯,舒丹,陈青凤
《贵州大学学报(自然科学版)》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号