揭秘E-rater的托福写作评分标准_新托福听力
刷了这么多套TPO,大家好像一直都在以学生的角度备考托福。那分数不高的你,有没有想过换个角度来看托福试题呢?托福写作的评分标准到底是什么?
新东方网托福频道在此和大家分享E-rater是如何给托福写作评分的,揭秘E-rater的托福写作评分标准。
托福的电脑评分
在托福口语和写作这两个项目中,都会涉及到电脑评分,而且电脑评分的结果是真实有效的,并会记录为真实成绩的。
自从2010年1月起,iBT(Internet-based Testing)就已对写作评分系统进行了调整,由原来的2个阅卷人评分,取算术平均分作为原始分(raw score),改为1个阅卷人和1个电脑评分系统(E-Rater)评分。我们其实可以更形象地把他们理解成为分工协作,联合判分。
电脑评分最大的优势就是具备足够的客观性,不存在阅卷的疲惫度,能够关注每一个评分标准,考虑到文章中的每一个细节和每一个特征。没有情绪,也就不存在主观印象,对于同一篇文章永远只会给出一个不变的分数;对于每一篇文章所给出的分数都能给出具体的解释,这是人为评分无法做到的。
托福写作电脑阅卷人:E-Rater
【E-Rater 的工作内容】
E-Rater 就是托福阅卷中使用的电脑评分系统,这个系统与人工评分互相分工。但它主要负责文章的Grammar(语法)、Usage(用法)、Mechanics(格式体例)、Style(风格)、Organization & Development(组织与展开),而人工主要负责文章的内容和含义的理解。
【E-Rater 的工作原理】
E-Rater的工作原理主要是利用计算机语言学中的自然语言处理(Natural Language Process,简称NLP)方法,对于文本相关信息进行标签匹配,结合ETS的数据审查来评分,简单点来说,和一些唱歌类 app 的打分模式是一样的原理。
但它其实更像一个基于强大数据系统支持的一个运算系统,能够将输入的文章内容和数据库里面的内容进行比照式批阅,极大程度地增强了阅卷评分的灵活度和广泛度,又节省了一大批人力。
【决定分数的方法】
人工评分和电脑评分是独立的,相互之间看不到对方的分数。两者的分差在一定的区间内,取一个人工评分和一个 E-Rater 评分的算数平均分作为原始分(1—5分),然后再换算成满分30分的分值,从而得出最终的得分。
系统会将考生的文章进行了不同色块的标注,开头段的黄色表示 background information,红色表示 thesis statement;中间段蓝色表示 topic sentence,绿色表示 supporting information;结尾段橙色表示 conclusion。
如果阅卷人和 E-Rater 的差值,超过合理的区间范围,则电脑评分和人工评分都无效,改换成下一个评分组重新评分。现在的 E-Rater 和人工评分的准确性、一致性高达98%。
【E-Rater 的工作步骤】
以托福的独立写作为例,托福独立写作主要从三个维度去考量考生的作文:Development(内容发展)、Organization(结构组织)和 Language Use(语言使用)。新托福听力
E-rater 读不懂我们的文章内容,那它是如何判分的呢?
Development
这个维度要求考生在文章发展中做到内容充实,而 E-Rater 并不能读懂考生的文章内容表达,因此它采取的方式是评估考生文章的 The Length of Discourse Element(话语元素长度)。简单来说,话语元素长度从两个方面进行评估:
1、平均句长:如果全文的句子写的都很短,则证明考生的思想内容很简单,不能有效表述清楚自己的论述,托福官方建议写作的平均句长应该在15-20词左右比较合适。
2、正文段句子数量:在中间发展段中,如果句子数量过少,证明考生没有话说,也就无法有效展开自己的观点。
Organization
这个维度要求考生合理组织段落,并且注意文章内容的逻辑衔接,E-Rater 很聪明地从下面这两个角度去评估:
1、The Number of Discourse Elements:话语元素数量,也就是合理分段。一般来说,建议文章分为4-5个段落。E-Rater 也能检测考生是否在文章中呈现了thesis statement、main ideas、supporting ideas、conclusion等。
2. The Use of Transitions:逻辑连接词的使用,E-Rater 通过检测考生句子之间的逻辑连接词,去判断文章的逻辑是否存在,以及是否合理。
Language Use
这个维度是通过对考生的语言表达进行数据分析,并匹配以往数据库里的语言数据,从而对考生的文章语言质量进行审核。
在语言层面,E-Rater 会从 Grammar 角度去审核考生文章中的 Fragments(句子碎片)、主谓一致(Subject-verb agreement)等;
从 Usage 角度去审核考生文章中的 Missing or Extra Article(冠词错误)、Preposition Error(介词错误)、Wrong Part of Speech(词性错误)等;
从 Mechanics 角度去审核考生文章中的Spelling(单词拼写)、Missing Comma(逗号缺失)等;
从 Style 角度去审核考生文章中的 Repetition of Words(词汇重复)、Short Sentences(过多短句使用)、Passive Voice(过多被动语态使用)等。
阅卷人都是ETS官方人员?
ETS在整个试卷的制作过程中,非常关注 “Fairness 公平” 这样一个核心要素。而公平原则其中非常重要的一个体现就是确保全球的做题结果都是由统一的阅卷人来进行批改。尤其是ETS将托福改革成iBT之后,更是加速了利用网络进行统一阅卷评分的进程。
虽然托福考试的直属机构为ETS,但ETS却不仅有托福这一项考试项目,像是托业、GRE、Praxis教师资格考试都属于ETS执管,仅仅是托福项目在中国每年就有超过20万人报考,这也意味着仅是从阅卷评分这个层面就需要投入大量的人力。
所以ETS的阅卷人并非仅限于ETS官方人员,而是面向美国本土的人员通过特定的流程进行招募的。招募的对象主要是在美国本土工作的人员,他们不需要在ETS办公,甚至是在家里阅卷也可以。
为了确保评分的科学性和准确性,所有的评分人员都必须参与评分培训,并且最终通过认证测试。在培训者熟练掌握所有的评分标准之后,就会进入线上评分环节,培训者必须利用大量的模板文章进行对比式评分,直至自己的打分和目标打分完全一致方能通过测试。而在整个过程中,ETS 官方人员充当的就是裁判和导师这个角色。
在完成培训任务之后,阅卷人会得到一个给定的账号用于登陆一个专门用于阅卷的软件。ETS 每个月会不定时地给这些阅卷人发送邮件,阅卷人需要在收到邮件后在七个工作日之内完成在线阅卷并给出反馈。考生的作文在送到阅卷人手上之前会先经过机器检查一遍,也就是一个检查雷同、字数(主要针对托福写作)、逻辑连接词以及一些语言问题的软件,阅卷人会看到机器的反馈并在此基础上再去评分。阅卷人在阅卷时是会严格按照 ETS 给出的评分标准评分,他们只需要给出一个最终成绩而不需要给出相关的评价。
最后
ETS 作为全球最大的测试服务机构,有着得天独厚的优势,那就是它每年都能够积累大量的文章数据,而且能够不断进行更新迭代,这能使得他的电脑评分系统的智能化不断地提升。
相比而言,其他测试机构的电脑评分系统却虚有其表,没有大量数据内核作为支持,所以自然无法得到一个理想的评分效果。另一方面,电脑评分有着它独特的优势,那就是具备足够的客观性。
新东方重庆学校微信(微信号:xdf_cq)
最新考试资讯、教育新闻,请扫一扫二维码,关注我们的官方微信!
版权及免责声明
①凡本网注明"稿件来源:新东方"的所有文字、图片和音视频稿件,版权均属新东方教育科技集团(含本网和新东方网) 所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他任何方式复制、发表。已经本网协议授权的媒体、网站,在下载使用时必须注明"稿件来源:新东方",违者本网将依法追究法律责任。
② 本网未注明"稿件来源:新东方"的文/图等稿件均为转载稿,本网转载仅基于传递更多信息之目的,并不意味着赞同转载稿的观点或证实其内容的真实性。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。如擅自篡改为"稿件来源:新东方",本网将依法追究法律责任。
③ 如本网转载稿涉及版权等问题,请作者见稿后在两周内速来电与新东方网联系,电话:010-60908555。