当前位置:首页 > 专题范文 > 公文范文 >

从赋予分值到标定编码【优秀范文】

时间:2022-07-14 10:30:02 来源:网友投稿

下面是小编为大家整理的从赋予分值到标定编码【优秀范文】,供大家参考。

从赋予分值到标定编码【优秀范文】

 

 从赋予分值到标定编码 ————高考语文试卷评分量表的制作 作

 者:

 蒋远桥

 作者简介:

 蒋远桥,上海市教育考试院命题办。

 原发信息:

 《语文学习》(沪)2018 年第 20182 期 第 68-73 页

 内容提要:

 近几年,高考逐步从“考什么教什么”转向“教什么考什么”,现行高考成绩是标准参照下的成绩获得与常模参照下的成绩使用的融合。文章结合具体高考试题,讨论分数解释在常模参照与标准参照两种模式融合下评分量表的制定,其融合方法为从赋予分值到为应答表定编码。

 关

 键

 词:

 高考语文试卷/评分量表/标准参照/常模参照

 期刊名称:

 《高中语文教与学》 复印期号:

 2018 年 08 期

 一般说来,一个考试项目可以描述为“成绩需求—项目开发—考试实施—评分阅卷—成绩使用”这样一个流程,成绩的有效性与其中每个环节紧密相关。一项考试的效度必然是相对某一确定的目标即成绩需求与使用来说的,即该测验成绩只有用于与项目开发目标一致的目的和场合才真正有效。高考即普通高等学校招生全国统一考试是为普通高等学校招生而进

 行的选拔性考试,高考成绩在“两依据一参考”的新模式下仍有举足轻重的决定性作用。然而,高考的作用又不限于招生录取,高考“为学生成长、国家选才、社会公平作出了历史性贡献”,高考“对提高教育质量、提升国民素质”“发挥了不可替代的重要作用”。如果我们仅着眼于高考的选拔功能,也会导致“唯分数论影响学生全面发展”的结果(《国务院关于深化考试招生制度改革的实施意见》,国发[2014]35 号)。可以说,高考的目的不仅在“选人”,也在“树人”。我们以“选人”和“树人”的双重考试目的作为思考的起点,综合考量高考的其他社会效应,可以对高考试卷命制尤其是评分量表的制作提出一些有益建议。

  一、评分量表的必要性:标准参照与常模参照的融合

  关于高考语文这一考试项目设置的依据,直接的纲领性文件,教育部考试中心《2017 年普通高等学校招生全国统一考试大纲》(以下简称《考试大纲》),表述为“根据普通高等学校对新生文化素质的要求,依据中华人民共和国教育部 2003 年颁布的《普通高中课程方案(实验)》和《普通高中语文课程标准(实验)》”,上海市教育考试院《2017 年普通高等学校招生全国统一考试(上海卷)考试说明》(以下简称《考试说明》),表述为“依据《上海市中小学语文课程标准(试行稿)》和高校人才选拔要求”。《考试大纲》的依据,应该是《国家中长期教育改革和发展规划纲要(2010-2020 年)》《国务院关于深化考试招生制度改革的实施意见》(国发[2014]35 号),前者在“完善高等学校考试招生制度”一节,后者在“深化高考考试内容改革”一节中,都明确高校招生考

 试依据“高等学校人才选拔要求和国家课程标准”。《考试说明》则依据《上海市深化高等学校考试招生综合改革实施方案》(以下简称《实施方案》)制定。

  这些表述主要是为了确定考试目标和考试内容。通过简单的对比可以发现,两份文件明确了高考语文相同的依据,即“高校人才选拔要求”与“课程标准”。《考试说明》指出:“普通高等学校招生全国统一考试语文科(上海卷)考试是为普通高等学校招生而进行的选拔性考试。”具体到使用方法,是“2017 年起,高考成绩由语文、数学、外语 3 门统一高考成绩和学生自主选择的普通高中学业水平等级性考试科目成绩构成,作为高等学校录取的基本依据”(《上海市深化高等学校考试招生综合改革实施方案》,沪府发[2014]57 号),即作为“二依据一参考”中的重要组成部分。可以说,现行的高校招生录取模式,无论是“三加一”或者“三加三”,高校在录取新生时,成绩的使用都是在常模参照模式下进行的。

  “课程标准”作为依据,从“标准”二字来看,已经具有“标准参照考试”的特征:《考试大纲》和《考试说明》都依据高中课程标准划定考试内容及能力目标的高下要求。另外,考生人数达数万乃至近百万的考试,基本不可能在纯粹的常模参照模式下完成。

  总体来看,现行高考成绩可以概括为:标准参照下的成绩获得与常模参照下的成绩使用的融合。高考作为选拔工具之外,同时又具有促进学生健康发展,维护社会公平、公正,引导中等学校教学等重大的社会意义。

 尤其是高考对中学教学影响巨大,这种影响既然客观存在,无法忽视,只有正视并通过努力使这种影响产生正面积极的效果。这种融合趋势和高考的其他社会效应都对高考语文主观性试题提出了超越原有赋分方式的新要求,评分量表可以说是这种要求的必然产物。

  二、标准参照与常模参照的内在矛盾

  事实是,标准参照和常模参照有着天然不同,有的不同对结果解释或许不重要,而有的不同则会有很大影响,这是试卷及评分量表制作时要着重解决的。

  考试目的不同是标准参照与常模参照的根本差别。常模参照考试的目的,是通过测量相关领域和内容,决定个体在团体中的相对位置;标准参照考试的目的,是通过界定良好的行为领域,判定个体对该领域的掌握程度和掌握状态。常模参照主要不是看被试者掌握了什么、能做什么,而标准参照也不重视被试者排名第几或处在怎样的比例位置。这一根本差别可以通过以常模参照考试内容领域的明确界定来解决。在一般的常模参照考试中,内容的确有其地位但并非最重要,内容领域界定不清晰未必会对常模考试分数的解释和使用构成太大威胁,而对标准参照考试而言,内容领域的确定却是首要任务。我们只需在高考试卷制作过程中明确执行《考试大纲》中依据语文课程标准所划定的内容范围和要求,就可以解决这个问题。近几年,高考逐步从“考什么教什么”转向“教什么考什么”,正是考试内容领域在标准参照考试里的重要性的体现,也是高考作为常模分数使用的标准参照转向的体现。

 试题编制时,由于成绩使用方法的差异,常模参照考试必须尽可能地区分考生,试题将更多关注对考生得分差异有所贡献的题目,所以会更多追求难度中等而区分度高的试题。标准参照考试的试题编制更注重考试内容和测量目标的准确及其涵盖范围,注重试题的代表性,标准参照的多数题目并不以区分考生的能力为目的,其内容、能力目标、能力要求等都仅以学业标准为标准。另外,一般说来,常模参照考试时长应长于标准参照考试。为了解决这些问题,我们可以用常模参照考试的框架为底,再加上标准参照考试对试题的要求。试卷制作先要关注试题的区分功能,使用较多中等难度的试题;同时注重试题考查内容的代表性,以课程标准为内容、能力要求的准则;再利用常模参照考试时间较长的优势,努力使试题做到更好的涵盖性。

  分数在具体解释的时候,常模参照分数时需参照特定的被试者样本,常模的制定也依赖于特定的被试者群体,因此,报告分数时多采用相对分数,如排名、百分等级和标准分数等;标准参照考试的分数依赖于特定的行为领域,如果该领域得到良好界定,其分数可以是绝对分数甚至直接的卷面分数,以此表示对测量内容的掌握程度。十分吊诡的是,目前现实的成绩报告、使用现状却正好与常情相反:高考作为选拔依据,其成绩基本以卷面原始分数累加为总分(未使用标准分)来使用,而学业水平考试作为学业标准参照考试,其成绩却往往使用等第(ABCDF)或是否合格的方式加以报告。这一问题的解决涉及评分标准的制定、评卷的过程,以及成

 绩报告、成绩使用等政策层面问题,我们这里仅就评分标准的制定这一点,讨论分数解释在常模参照与标准参照两种模式下的融合方式。

  三、融合的方法:从赋予分值到为应答标定编码

  标准参照考试的价值在于考查一定内容领域内的知识、技能的掌握程度或状态。如果要让本用于个体差异的相对测量的常模参照考试向学生掌握知识与技能的绝对测量转变,对主观题而言,细致科学的评分量表的制作将是良好的解决办法。评分量表的最大功能,正在于提升常模分数可解释性的同时,将原来效用单一分数,转变为依据考生应答而分类标记的编码,记录更多的学生表现。

  2017 年高考语文上海卷有这样的试题:

  第⑥段提出“常识包含的道理并不提供对世界的整体解释”的观点,并用“两小儿辩日”一例加以证明,请具体分析这一例子是如何证明观点的。(3 分)

  这个试题考查论据与论点的关系。PISA2006 科学测试有一道测量目标相似的试题:

  小德有兴趣研究地球大气层的平均温度和地球上二氧化碳排放量之间的关系。他在图书馆找到下面两幅曲线图。

 小德从曲线图中得出结论,认为地球大气层平均温度的上升,显然是由二氧化碳排放增加而引起的。

  问题:曲线图中有什么数据支持小德的结论?

 评分标准为:

  编码为 11:指出(平均)温度与二氧化碳排放量均上升。

  编码为 12:指出一般而言,气温与二氧化碳的排放量有正关系。

  编码为 01:指出(平均)温度或二氧化碳排放量其中一项有上升。

  编码为 02:指出气温与二氧化碳之间有关系,但没有清楚表明两者有什么关系。

  编码为 99:没有作答。

  而语文上海卷的答案示例为:

  “两小儿辩日”中有“近大远小”“近热远冷”两条常识,它们单独来看都是正确的,但在判断太阳离地远近时,却会导出不同的结论,表明常识包含的道理只能解释相关现象的一部分,由此证明常识包含的道理并不提供对世界的整体解释。

  评分说明为:

  “有‘近大远小’‘近热远冷’两条常识”“单独来看都是正确的”“在判断太阳离地远近时,却会导出不同的结论”“表明常识包含的道理只能解释相关现象的一部分”为 4 个点,答对 1 点给 1 分,给满 3 分为止。

  两相比较可以看出,目前高考的评分仍主要重视其常模参照考试的作用,评卷主要是为了赋予分值;而 PISA 作为标准参照考试,在得到分值的同时,还注重不同考生在答卷时的各类不同表现,并通过标定编码的方式给予记录。

 其实高考语文上海卷自 2013 年以来,也在评分量表的开发上作出了努力,2013 年高考语文上海卷现代文阅读部分的 9 道主观题,编有 6 题7 张量表,如第 2 题:

  2.(3 分)答案示例:画线句承上启下,承接上文油画的装饰方式体现对静态空间占有的内容,引出下文关于卷轴所隐含的时间性要求的阐释。

  评分量表:

 量表说明:

  答题模式中,“①”表示“承上启下”;“②”表示“承接上文油画的装饰方式体现对静态空间占有的内容”;“③”表示“引出下文关于卷轴所隐含的时间性要求的阐释”。

  该评分量表虽然有“答题模式”一栏,但是答题模式仅与“分值”对应,其存在的目的只是为了赋予分值,而不真正具备记录考生答题方式及思维方式的作用,所以也未实现常模参照与标准参照两种模式的融合。近几年来高考语文上海卷中的其他评分量表也基本类似。

  如果要在评分量表的制作上再进一步,我们可以通过双位编码,来为高考语文的考生应答标识更清晰的类别。首位数字用来代表正确程度或水平层次,如“4”代表最优秀,“3”代表良好,“2”代表合格,“1”代表较差,“7”代表错误水平,“9”代表空白应答。末位数字用来代表同一正确程度下的不同思维模式与类型,一般采用阿拉伯数字表示,“99”

 代表空白应答,“88”代表阅卷过程中阅卷员无法判断的作答。如果需要,双位编码中的数字还可以增加。这种新的评分量表示例见下表。

 本着这一思路,我们可以对 2017 年高考语文上海卷中的一个试题的评分标准进行修订,做改进的示范。文本如下:

 8.把帐篷比喻成“小舟”形象生动,而从第④段画线句整体来看,“小舟”这一喻体的选择另有巧妙之处,请加以赏析。(4 分)

  答案示例及评分说明为:

  答案示例:画线句中的“小舟”,与冷月清辉下广袤的沙山沙海形成对照,苍凉辽阔的环境凸显出帐篷的微小,表现出主人公的孤独;“小舟”又让人联想到“夜半钟声到客船”的诗句,想象寒山寺的钟声跨越万里,慰藉主人公的相思之苦。选择“小舟”作为喻体,能将沙漠、冷月、客船、家乡钟声巧妙勾连起来,营造出深邃悠远的意境。

  评分说明:“与冷月清辉下广袤的沙山沙海形成对照”“苍凉辽阔的环境凸显出帐篷的微小,表现出主人公的孤独”“‘小舟’又让人联想到‘夜半钟声到客船’的诗句”“想象寒山寺的钟声跨越万里,慰藉主人公的相思之苦”“能将沙漠、冷月、客船、家乡钟声巧妙勾连起来”“营造出深邃悠远的意境”为 6 个点,答对 1 点给 1 分,给满 4 分为止。

  分析示例,发现它由三部分组成:

 ①横向,现实的沙漠与文本的“山海”:画线句中的“小舟”,与冷月清辉下广袤的沙山沙海形成对照,苍凉辽阔的环境凸显出帐篷的微小,表现出主人公的孤独。

  ②纵向,历史勾连苏州钟声诗句:“小舟”又让人联想到“夜半钟声到客船”的诗句,想象寒山寺的钟声跨越万里,慰藉主人公的相思之苦。

  ③总结,总体效果:选择“小舟”作为喻体,能将沙漠、冷月、客船、家乡钟声巧妙勾连起来,营造出深邃悠远的意境。

  所以,其实原有的评分方法下,得 4 分者可以有多种答题的模式,可以将其标定编码如下表所示。

  我们细致分析不同编码下的答题模式,也能发现这些答案有高下之分:43 最为全面,41 主要是在②上用力,从题目要求的“从第④段画线句整体来看”来看,比 40 这一类别主要在①上用力更为符合题意,42 则在①②间平均用力。根据这样的分析,在等级数及阅卷配备允许的情况下,还可以对学生应答再加以细微区分。

  标准参照考试不是为了证明考生不懂什么或不会什么,学生的应答同时会受到表达、书写等其他因素的影响,如果不影响理解,在赋予编码应作出有利学生的推断,忽略微小而无关测量目标的偏差,着眼于对问题的理解和解决...

推荐访问:从赋予分值到标定编码 标定 分值 赋予

相关推荐