快捷分类

成人学位英语考试写作测试评分偏差研究

更新时间：2009-03-28

成人高等教育非英语专业学士学位英语水平考试（以下简称“成人学位英语考试”）是由各省级高等教育主管部门组织的统一考试，旨在客观地检测非英语专业成人本科毕业生申请学士学位者的英语综合运用能力[1]，而写作测试能够较好地考查受试的语言运用能力[2]。但是由于写作测试为主观题型，因此须采用人工进行评分，而人工主观评分是一个复杂的认知过程，容易出现偏差，这将直接影响考试的效度和公正性，所以有必要对评分员的评分偏差进行研究[3]。为此，本研究拟采用多层面Rasch模型，分析成人学位英语考试写作测试的评分偏差，并对其写作测试评分以及评分员培训提出改进建议。

青瓷一整天都把自己关在屋子里，她想起和李光北在一起的点点滴滴，那么老实的一个男人，把她捧在手心里，含在嘴里，从不让她受丁点委屈，饭他做，家务他打扫，赚的钱一分不少交到她手里，让她随便花，自己却穿着几年前的旧裤子也舍不得买新的。

一、研究现状

国外有关主观题评分偏差的研究起步较早，发展较快[4][5][6][7][8][9][10]，主要体现在评分员外部一致性的相关研究，比如评分员的严厉度（leniency/severity）是否一致；评分员内部一致性，如评分员由于倾向于打中间分而出现了集中趋势（central tendency），或在使用某个分数段时显示出较明显的随机效应（randomness），或评分员对两个或多个语言特征的评分非常接近，从而导致无法区分考生能力的晕轮效应（halo effects），或评分员的区分性严厉度是否存在差异（differential leniency /severity）等。

对于城市的规划和建设来说，居住区是一个重要的组成部分，他是城市居民生活的地方，是人们基本生存生理需要的地方。在住宅小区园林景观设计的过程中，主要是生态绿化、生活品质等方面的综合应用，除此之外，在推动住宅小区生态景观设计的基础上，如何创造符合各个年龄段居民需求的运动、活动空间，提高居住环境的舒适度与幸福感都是需要景观设计过程中关注的问题。通过规划设计来增强居民的归属感和舒适度，并在和谐的环境中相互交流，增强邻里之间的沟通。

相比国外，国内的评分偏差研究虽然处于起步阶段，但研究的覆盖面较广，如CET作文/口语考试的评分偏差研究[11][12]、英语专业学生（TEM）写作评分行为研究[13][14]；高考英语大规模读、写任务的评分信度分析[15]；计算机分口试析评分效果研究[16]； PETS三级口语考试评分误差分析[17]；计算机口试评分员效应/偏差研究[18][19]；翻译/口译的评分效度研究[20][21]；商务英语考试的信度研究[22]；评分标准的效度验证[23]等。然而，目前还没有文献对成人学位英语考试写作测试的评分偏差进行研究。为此，本研究拟采用Rasch模型，探讨成人学位英语考试写作测试的评分是否存在评分偏差。

二、研究方法

（一）数据来源及评分

本研究使用数据来源于某学位英语考试阅卷点2016年4月的阅卷结果。参加此次学位英语考试的受试为9208名，共有19名评分员（R1-R19）通过网络对考生的写作试题进行双评。这些评分员分别来自7所不同的本科院校，男女比例为8∶11，其中教授1人，副教授5人，讲师13人。阅卷员采用整体评分法（global scoring），从内容和语言两个方面对写作进行综合评判。评分标准共五个评分等级，包含十五个分数段。

（二）多层面Rasch模型

本研究采用的MFRM模型包括两个层面：受试和评分员。这两个层面可以用以下模型来表示：

log（pijk/pij（k-1））=Bi- Dj - Ek

其中，pijk表示评分员j给受试i打k分的概率；pij（k-1）表示评分员j给受试i打k-1分的概率；Bi为受试i的能力；Dj为评分员j评分的严厉程度；而Ek为分部记分模型（Partial Credit Model）中受试得分从k-l等到 k 等的等级难度（step calibration）[24]。

下午放学前，小亮才找到我，说他愿意担任合作小组组长。通过小亮在这件事情上的表现，让我对他有了3点新认识：一是他的人缘比较好；二是在关键事情上，他是慎重的；三是他的内心还是向往优秀的。

多层面Rasch模型的分析主要涉及以下概念：1）度量值（Measure）：每个层面的个体在统一标尺上的数值，以洛基单位（logit）呈现，从而便于比较各层面中个体能力的差异[25][26]；2）表示个体的实际观察值与Rasch模型预测值的拟合程度，包括加权均方拟合统计量（Infit Mean Square）和未加权均方拟合统计量（Out Mean Square）[27][28]；3）分隔系数（Separation）和分隔指数信度（Reliability）：衡量个体之间存在显著性差异的程度 [29]；4）偏差（Bias）分析：多层面 Rasch 模型的可以用来预测实际分数偏离模型的情况，显著性偏差比例可接受的范围是在5%左右[30]。

三、分析与讨论

本研究采用FACETS （3.71.3）软件[31]，基于多层面Rasch模型对学位英语考试写作测试评分进行分析，详细讨论评分员外部一致性、内部一致性以及评分员与受试的交互作用三个方面。

（一）评分员外部一致性

评分员外部一致性主要体现在评分员之间严厉度的差异程度。就评分员层面而言，分隔系数和分隔指数信度的值越大，则表示评分员之间评分的差异越大，评分的一致性越低。Rasch 模型数据分析显示（见表 1），评分员严厉度的分隔指数为12.60，分隔指数的信度为0.99，由此可见，评分员之间的一致性较差。表1同样显示，评分员层面的卡方值为2796.7，自由度为d.f.为18，显著性p=.00小于.01，这表明评分员的严厉度存在显著的差异，从而拒绝“评分员严厉度相同”的零假设。尽管所有的评分员在评分前都参加了评分培训，进行了试评，但评分员外部一致性仍不理想。由此可见，成人学位英语写作测试评分的培训效果不太理想，有待进一步加强。

表1 评分员层面数据

Separation 12.60 Reliability .99Chi-square: 2796.7 d.f.: 18 significance （probability）: .00

TotalTotalObsvdFair（M）ModelInfit Raters Score Count Average Average Measure S.E.MnSq ZStd R12 3096 982 3.15 3.16 1.21 0.04 1.54 8.6 R6 2887 939 3.07 3.34 0.96 0.04 1.08 1.4 R17 3050 971 3.14 3.41 0.87 0.04 1.01 0.2 R13 3492 962 3.63 3.94 0.20 0.04 1.46 7.4 R3 3638 922 3.95 4.07 0.05 0.04 0.87 -2.5 R14 4099 1073 3.82 4.07 0.04 0.04 0.91 -1.7 R4 3442 958 3.59 4.11 0.01 0.04 1.01 0.2 R2 4294 1112 3.86 4.19 -0.09 0.03 0.92 -1.7 R19 3911 991 3.95 4.23 -0.13 0.04 1.04 0.6 R5 3481 931 3.74 4.23 -0.13 0.04 1.08 1.4 R16 3557 961 3.70 4.25 -0.16 0.04 0.92 -1.5 R15 3779 967 3.91 4.27 -0.19 0.04 1.09 1.6 R9 4168 971 4.29 4.30 -0.21 0.04 0.98 -0.3 R8 3350 841 3.98 4.43 -0.36 0.04 0.89 -2 R1 3681 928 3.97 4.43 -0.36 0.04 0.97 -0.5 R7 3648 907 4.02 4.44 -0.37 0.04 0.88 -2.2 R18 4392 1069 4.11 4.47 -0.41 0.03 0.93 -1.4 R11 3841 964 3.98 4.50 -0.43 0.04 1.01 0.1 R10 4283 967 4.43 4.58 -0.52 0.04 0.83 -3.3

虽然评分员之间的严厉度存在显著差异，但评分最严的评分员（R12，1.21 logits）和最松的评分员（R10，-0.52 logits）相差 1.76 logits的度量值（见表 1），仍不及受试能力跨度（18.92logits）的1/11，所以总体而言，本次评分结果有效，评分员的评分差异不会对考生的成绩产生决定性的影响[32]。

（二）评分员内部一致性

评分员的内部一致性主要体现在评分员在评分过程中是否出现集中趋势、随机效应或晕轮效应。然而，由于晕轮效应主要是看评分员对某一突出语言特征（如语言的运用维度）的评价是否影响对其他特征（如语言的规范维度）的判断，而本研究写作评分主要基于整体评分，无法对晕轮效应进行讨论，所以本研究关于评分员内部一致性的分析主要从评分的集中趋势和随机效应两方面进行。

早燃是指在火花塞点火之前，炽热表面点燃混合汽的现象。由于它提前点火而且热点表面比火花大，使燃烧速率快，汽缸压力、温度增高，发动机工作粗暴，并且由于压缩功增大，向缸壁传热增加，致使功率下降，火花塞、活塞等零件过热。

1.集中趋势。判断评分员是否出现集中趋势，主要可以参考以下三个方面：评分员层面加权均方拟合度（Infit Mnsq）的取值；受试层面统计结果；各分数段的使用情况。（1）评分员层面加权均方拟合度。一般而言，评分员高度拟合的取值范围为0.7-1.3[33]，较为宽泛的取值范围为0.5-2.0[34]。对此范围，尚未有文献明确提供其分析的依据。鉴于本研究涉及的考试规模较大，而且风险较高，故将取值范围设定为0.7-1.3。如果拟合度大于1.3，说明该评分员评分的自身一致性不太理想；若小于0.7，则说明该评分员的评分结果区分度不大，可能存在集中趋势。表1数据（倒数第2列）显示，所有评分员拟合度的值均大于0.7，这说明本次阅卷不存在集中趋势。然而，评分员R12和评分员R13拟合度的值分别为1.54和1.46（见表1），均大于1.3，这说明两位评分员的评分一致性较差，原因可能是评分员R12 第一次参加成人学位英语写作测试的评分，缺乏评分经验；而评分员R13虽然兼顾行政和教学工作，但其工作重心为行政工作，英语教学经验不足可能会影响其评分质量。由此可见，评分员的评分经验、教学经验可能对其评分产生一定的影响。对于这两位缺乏评分经验和教学经验的评分员，则需要对他们进行针对性的培训，从而提高其阅卷质量。（2）受试层面统计结果。对于受试层面，分隔比率（Separation）、分隔指数信度（Reliability）等主要用于衡量个体之间存在显著性差异的程度。分隔比率和分隔指数信度越大表明该考试的区分度越大。通常情况下，分隔系数大于2，则表明个体之间有较为显著的差异[35]。分析显示，考生层面分隔比率为3.83，分隔指数信度为0.94（见表2），数据表明受试的写作能力差异显著，这说明评分员的评分能够有效地区分受试的写作能力，即评分结果更多地取决于考生能力水平的差异，而非外部因素（如测量或评分误差等）。因此，从受试层面的数据可以看出，本次评分不存在明显的集中趋势。（3）各分数段的使用情况。就此而言，可以从两个方面来判断评分员的评分是否出现集中趋势。首先是各个分数段评分的概率曲线图。假如概率曲线图各个分数段的曲线图相离较远，并且出现独立的尖峰，就有可能存在集中趋势[36][37]。虽然从图1可以明显看出各个分数段概率曲线均有明显的尖峰，但各分数段的曲线图分得不是很开，由此可以看出，19位评分员评分的集中趋势不显著。其次，可以从各分数段的具体使用次数来判断是否存在集中趋势。由表3可知，所有分数段的使用次数所占比例均不超过15%，主要分布在2分、3分、4分、5分以及6分等多个分数段，其次是1分、7分和8分分数段。此项数据再次表明，本次评分不存在显著的集中趋势。然而，通过表3同样可以看出，本次评分使用的低分数段的频率较高，从而直接导致本次成人学位英语写作测试的得分普遍较低。除了成人学位英语考生整体英语水平不太高外，另外一个原因可能是多数评分员曾经参加过四、六级写作评分，可能受其影响，在本次阅卷中对标准的把握较严，从而导致低分数段使用的频次较高。

表2 受试层面数据

最大值最小值均值方差Measure （logit）5.15-11.72-0.261.51 Infit MnSq 9.00 0.04 0.99 0.60 Separation: 3.83 Reliability: 0.94 Chi square: 128227.8 d.f.: 9207 Significance:00

图1 学位英语写作评分概率曲线图

表3 各分数段使用情况

注：本次阅卷量较大，对9208名考生进行双评，所以分数段13和14的使用频次虽然分别为57次和14次，但由于基数较大，故百分比统计结果为0%。

分数段 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14次数 320 1396 1762 2147 2219 2065 1738 1245 877 590 312 205 142 57 17比例 2% 9% 12% 14% 15% 14% 12% 8% 6% 4% 2% 1% 1% 0% 0%

伯虎终于说到正题。只见他们三人面前的空中，三维画面像一朵花瓣似地打开了，应用里出现了一个导航页。而就是这个导航页当中的“降维安全监测”六个字，使得安文浩一怔。

关于分隔比率或分隔指数信度，本文“集中趋势”的讨论中已经进行陈述，因此不再累言。虽然分隔比率不是太高，但由于其信度指数为0.94（p=0.00＜.001）（见表2），所以从这个方面讲，评分员的评分不存在明显的随机效应。

表4 学位英语写作评分点二列相关系数（PtBis）

评分员PtBis R11 R16 R10 R18 R2 R14 R7 R8 R3 R15 R5 R19 R4 R9 R1 R13 R6 R17 R12实际值 0.94 0.94 0.94 0.93 0.92 0.92 0.92 0.92 0.92 0.91 0.91 0.91 0.91 0.91 0.91 0.89 0.89 0.89 0.86预期值 0.92 0.91 0.91 0.91 0.91 0.90 0.91 0.91 0.90 0.92 0.91 0.90 0.91 0.90 0.91 0.91 0.89 0.89 0.89

基于表4数据，本研究通过对19位评分员点二列相关系数的实际值和预期值的配对样本t检验发现，两者差异不明显（p值为0.087＞0.05）。其中，评分员R11、R16以及R10实际的点二列相关系数值最高（0.94），评分员R12实际的点二列相关系数值最低（0.86），相差仅为0.08，而且其余评分员介于0.89-0.93之间。由此可见，19位评分员的评分不存在随机效应。

3.评分员与受试的交互作用。这两个层面的交互作用是评分偏差的重要体现，如果评分员与受试的交互作用显著，则表示评分员对受试的评分出现偏差。另外，从评分员与受试的交互作用也可以看出评分员对受试个体的评分是否一致。

协同理论引入中国后，学界进行了深入研究和探讨。张刚（1997年）根据协同创新的路径不同，将协同分为内部协同和外部协同：内部协同是内部要素之间的互动与协同；外部协同是研究主体和外部要素之间的互动与协同。陈光（2005年）根据研究主体与相关主体之间的关系，将外部协同细分为横向协同和纵向协同：横向协同是指同一大类产业中细分产业主体间的协同；纵向协同是指同一功能链不同环节上主体之间的协同［8］。

表5 评分员与受试的交互作用

注：由于本次阅卷的数据较多，本表只列出交互作用出现偏差的一些极值数据。

评分员考生编号 logit值观察值期望值标准误 t值自由度 p值R18 s6498 -1.14 10 5.3 0.80 4.58 1 0.1368 R4 s5730 -0.60 10 5.42 0.80 4.43 1 0.1414 R6 s4550 -1.29 8 3.89 0.86 4.42 1 0.1416 R14 s8708 -1.08 9 4.9 0.82 4.13 1 0.1511 R5 s6089 0.22 12 6.47 1.01 4.04 1 0.1544 R19 s7469 -2.71 7 3.63 0.90 3.76 1 0.1656…… …… …… …… …… …… …… …… …… …… ……R13 S4469 0.20 2 6.42 1.41 -3.87 1 0.1609 R8 s1786 -2.51 0 3.97 1.92 -3.94 1 0.1583 R15 s6089 0.22 1 6.53 1.91 -4.29 1 0.1458 R17 s5730 -0.60 0 4.58 1.95 -4.30 1 0.1455

由表5可知，评分员与考生之间的交互作用不具有统计意义上的显著性（p值均大于0.1），即本次评分中评分员对受试的评分偏差不具有概括性（generalization）。然而，本次成人学位英语写作测试的阅卷中，少数评分员确实存在评分偏差，比如评分员R18对考生s6398的评分过于宽松，实际评分为10分，而Rasch模型期望值仅为5.3分；再如评分员R17对考生s5730的评分有过于严厉，实际评分为2分，而Rasch模型的期望值为6.42分。一般认为，t值绝对值大于2的偏差属较为明显的偏差。通过统计得知，本次阅卷出现偏差的次数为633次，占交互次数总数的4.2%。在Rasch模型中，如果偏差次数不超过总交互次数的5% ，则不影响评分的效度[39]。为了减少此类偏差现象，成人学位英语写作测试阅卷除了采用双评模式外，阅卷过程中如果出现两位评分员对同一位考生的评分均出现较大的偏差，则由第三方阅卷员重新进行评阅（仲裁），以确保评分的信度。

四、结论与建议

[10]Myford, C.M.&Wolfe, E.W.Detecting and measuring rater effects using many-facet Rasch measurement Part I[J].Journal of Applied Measurement, 2003, 4（4）：386-421.

（一）进一步加强对评分员的培训

虽然本次成人学位英语写作测试阅卷前对所有的评分员进行了培训，对各分数对应的典型试卷进行了试评，而且多数评分员评分的内部一致性把握较好，但评分员外部一致性较差，严厉度差异显著。这表明原有评分员的培训可能对提升评分员自身的一致性有一定的帮助，而对提高评分员外部一致性的作用不明显。因此，本研究建议进一步加强对评分员的培训，以减少评分员之间的评分差异。除了在阅卷前需要对评分员进行培训外，评分员在实际的阅卷过程中可能会出现分歧或对标准的把握出现偏差，所以在阅卷过程中也应进行适当的培训，或组织阅卷员进行针对性的讨论，从而进一步确保评分员的外部一致性。

37 上海市社区人群对慢性肾脏病的关注度及其影响因素单婵娟，龙俊睿，邬碧波，秦宵，梅长林，王九生，熊林平

（二）尽量使用有经验的老评分员

通常而言，老评分员阅卷经验丰富，评分质量较高，而且阅卷的效率也高于新评分员，因此，在实际条件允许的情况下，尽量使用老评分员。如果确有新评分员参与评分，则需要对新评分员进行针对性的培训，比如对评分标准进行详尽的解释，选用各个评分段所对应的典型作文进行多次试评等。同时，阅卷过程中也可以邀请优秀的老评分员交流其评分经验，以帮助新评分员提高阅卷质量和效率。

（三）减少阅卷过程中的评分偏差

为了减少阅卷过程中的评分偏差，阅卷中心需要不断丰富和更新阅卷的数据，并加强阅卷组长的监督力度。阅卷组长在阅卷过程中应不间断查看更新的数据，比如总体评分的均值、标准差以及评分员各自的均值、标准差等，及时告知阅卷员的评分情况。如果个别阅卷员出现明显偏差，则应及时提醒并督促纠正，如果情况仍然没有改观，则有必要对其进行培训。

（四）减少评分员原有评分习惯对现有评分的影响

虽然成人学位英语写作测试相对四、六级而言，其难度较小，而且考生的总体水平也较低，但其评分标准也有自身的特点。因此，参加过四、六级写作评分的评分员在进行成人学位英语写作评分时，应该加强对评分标准的学习和内化，减少原有评分习惯对现有评分的影响。

当然，本研究只采用定量的方法对成人学位英语写作测试的单次评分结果进行了分析，还存在两点不足：未采用定性的方法探究评分偏差深层次的原因；未对历次的评分偏差进行历时分析，这两方面需要在以后的研究中进一步完善。

[3][35][36][38]Myford, C.M.&Wolfe, E.W.Detecting and measuring rater effects using many-facet Rasch measurement Part II[J].Journal of Applied Measurement, 2004,5（2）： 189-227.

参考文献：

[1]教育部学位与研究生教育发展中心.成人高等教育本科生学士学位英语水平考试大纲[Z].北京：高等教育出版社，2013.

[2]杨惠中.大学英语四、六级考试十五年回顾[J].外国语，2003（3）：21-29.

从那以后，我常常在家具上或空气中模仿弹琴的动作，于是父母给我买了一台简单的玩具钢琴，令他们完全没想到的是，我能无师自通地用玩具钢琴演奏听过的曲调。父母商议再三，觉得我有天赋，于是带我去福贾城中的一位老师那儿求学。

企业战略管理主要是组织者或是相关团队的主要负责人，根据具体的要求对自己的企业实力展开分析，然后再针对自己企业所处的行业的行情和整体的竞争状况进行深入研究，同时对自己企业的内部结构以及外部的影响因素做出综合探索，最后再在以上各项因素的基础之上为自己的企业确立具体目标，明确自己的企业使命，并为自己的企业做出相关的发展规划。与此同时，详细的企业战略帮助企业更好地利用自己已经具有的资源，不断发现和挖掘自己企业所具备的潜力，并且更有利于企业提高自己的综合竞争实力，为企业获取更多的收益和占据更多的市场份额［1］。

[5]Kondo-Brown, K.A FACETS analysis of rater bias in measuring Japanese second language writing performance[J].Language Testing, 2002, 19 （1）：3-31.

[6]Elder, C., Knoch, U., Barkhuizen, G., & von Randow,J.Individual feedback to enhance rater training： Does it work?[J].Language Assessment Quarterly, 2005, 2（3）：175-196.

[7]Schaefer, E.Rater bias patterns in an EFL writing assessment[J].Language Testing, 2008, 25 （4）： 465-493.

[8]Winke, P., Gass, S.& Myford, C.Raters’ L2 background as a potential source of bias in rating oral performance[J].Language Testing, 2013, 30 （2）：231-252.

[9]Attali, Y.A comparison of newly-trained and experienced raters on a standardized writing assessment[J].Language Testing, 2016, 33（1）：99-115.

本研究以某成人学位英语考试阅卷点2016年4月的写作评分为数据源，通过使用多层面Rasch模型对成人学位英语考试写作测试的评分偏差进行了分析。结果发现：评分员的评分严厉度差异显著，但这种差异不影响总体评分效度；评分员评分的自身一致性较好，不存在明显的集中趋势或随机效应；评分员与考生交互作用的偏差不显著。然而，通过分析发现，两位评分员的内部一致性较差；低分数段的使用频率较高；少数评分员对部分考生的评分存在偏差。结合该研究结论，本研究尝试为成人学位英语考试写作测试评分以及评分员培训提供以下三个方面的启示与建议。

[4][33]Weigle, S.C.Using FACETS to model rater training effects[J].Language Testing, 1998, （15）： 263-287.

[11][26][28][32]何莲珍，张洁.多层面Rasch模型下大学英语四、六级考试口语考试（CET-SET）信度研究[J].现代外语，2008（4）：388-398.

2.随机效应。随机效应可以从考生层面的数据统计和点二列相关系数值（Point-biserial correlations，缩写为PtBis）等方面来判断：1）较低的分隔比率或分隔指数信度表示评分可能存在随机效应；2）如果某评分员的点二列相关系数比其他评分员的点二列相关系数明显要小，表示该评分员的评分和其他评分员有明显不同，存在随机性[38]。

[12]李航.基于概化理论和多层面Rasch模型的CET-6作文评分信度研究 [J].外语与外语教学，2011（5）：51-56.

内镜超声(EUS)作为一种有效的辅助检查手段填补了普通内镜、体表超声和CT等所不能覆盖的一些特殊适应证，特别是EUS下介入性诊断和治疗是目前解决胆胰系统疾病的重要方法之一，诊断和治疗地位日益上升[1-2]。但目前EUS在我国的应用还有一定的局限型，其原因为EUS的教学模式主要是授课教学、手把手、老带新等，教学方法单一，缺乏系统性和针对性。本研究旨在探讨讲授式教学法(lecture-based learning，LBL)、案例式教学法(cased-based learning，CBL)以及两者联合在EUS胆胰疾病教学中的应用。

[13]谭智.应用Rasch模型分析英语写作评分行为[J].外语教学理论与实践，2008（1）：26-31.

[14]李清华，孔文.TEM-4写作新分项式评分标准的多层面 Rasch 模型分析 [J].外语电化教学，2010（1）：19-25.

[15]张新玲，曾用强.读写结合写作测试任务在大型考试中的构念效度验证[J].解放军外国语学院学报，2009（1）：56-61.

[16]刘建达，吕建涛.大规模计算机口试分析评分效果研究 [J].现代外语，2015（2）：248-257.

[17]张洁.PETS三级口语考试评分误差研究—结合定量统计和定性描述的方法 [J].外语测试与教学，2012（2）：33-42.

[18][37]刘建达.评卷人效应的多层面Rasch模型研究[J].现代外语，2010（2）：185-193.

[19]戴朝晖，尤其达.大学英语计算机口语考试评分者偏差分析 [J].外语界，2010（5）：87-95.

[20]江进林，王立非，马晓雷.英译汉任务中的评分员效应研究 [J].解放军外国语学院学报，2011，34（6）：97-101.

[21]赵南，董燕萍.基于多面Rasch模型的交替传译测试效度验证 [J].解放军外国语学院学报，2013（1）：86-90.

区位特征有5个．本文选取的公园中汉文化景区为收费公园,但是园外绿地对市民开放,其余公园都为开放性公园．在公园类型上,根据研究内容的侧重点,选取了16个具有一定规模的综合公园、风景名胜公园、植物园．本文选取的徐州市主城区商圈有人民广场、彭城广场、云龙万达广场、徐州站商圈、铜山万达广场和淮海环球港．由于住宅的具体位置只精确到所在小区,因此在测度距离时,选取小区的几何中心到绿地的边缘距离．

[22]王立非，江进林.全国商务英语考试的设计与信效度研究 [J].外语与外语教学，2011（6）：35-40.

舒曼从茶炉里拔出一些彤红的火炭，周围搭几块旧砖，把洗脸盆放上，再放上大丫从食堂里偷来的豆油及佐料，兑上汤，切好豆腐放在汤里，加上盐及辣椒末，在洗脸盆子里炖就成了。

[23]杨志强，全冬.PRETCO口试评分标准效度验证[J].外语测试与教学，2016（1）：13-21，31.

[24]孙晓敏、薛刚，多面Rasch模型在结构化面试中的应用 [J].心理学报，2008，40（9）：1030—1040.

[25][27][29][31][34]Linacre, M.A User’s Guide to FACETS： Rasch-Model Computer Program [M].Chicago：MESA Press, 2013.

[30][39]McNamara, T.F.Measuring Second Language Performance[M].London： Longman, 1996.

在汽车行业，市场与客户大数据已成为汽车经销商竞争和业务转型的核心战略资源，多元化营销获客、运用新技术洞察客户偏好、提供全生命周期的服务、提升客户体验都是汽车市场尚待挖掘的数字宝矿。

作者

杨志强，全冬，况东林

出处

《教育与考试》 2018年第01期

上一篇：上海圣约翰大学学业考试的特点及启示

下一篇：基础力学课程“口试+笔试”综合型考核方式探析*

《教育与考试》2018年第01期文献

加州大学本科招生如何考虑学业表现——美国加州大学校长办公室常桐善博士访谈录作者：常桐善，万圆

自主招生：公平与效率缺一不可* 作者：陈为峰

高考招生过度选拔初探作者：应朝帅

金陵女子大学自主招生探析* 作者：袁景蒂

试论福建在清代科举中的地位作者：李世愉

清代福建乡试与台湾举人作者：戴显群

“闽台科举文化学术研讨会”综述作者：蔡正道

上海圣约翰大学学业考试的特点及启示作者：张亚群，冯寅

成人学位英语考试写作测试评分偏差研究作者：杨志强，全冬，况东林

基础力学课程“口试+笔试”综合型考核方式探析* 作者：赵增辉，李龙飞，冯元慧，陈俊国

公立大学法人制度改革的世界潮流与中国抉择作者：解德渤

高校学生评教的忧思与求索作者：周序，林琳

大学生“大学英语”学习投入实证研究*——基于福州大学的调查作者：谢玉姣

当前印度大学拨款委员会存在的缺失与重构* 作者：王文礼

试析1920年代中国自由主义公民教育兴起的政治文化动因* 作者：陆华东

2017年《教育与考试》总目录（第1到6期） 2009/03/28

杂志信息网