如何“调戏”自动阅卷机
来源:    发布时间: 2016-02-23 11:00   4040 次浏览   大小:  16px  14px  12px
最近公布的一份研究报告总结说,计算机能够给美国标准化考试的作文评分,效果和人工阅卷一样好。

 最近公布的一份研究报告总结说,计算机能够给美国标准化考试的作文评分,效果和人工阅卷一样好。

阿克伦大学(University of Akron)教育学院院长马克•谢尔米斯(Mark Shermis)收集了 6 个州的 1.6 万多篇经人工打分的初高中考试作文。然后他用 9 家公司开发的自动化系统来给这些作文评分。

阿克伦大学的一份新闻稿称,电脑阅卷的“准确度几乎完全相同,事实证明在某些情况下软件比人更加可靠”。

“高等教育内幕”(Inside Higher Ed)网站上的一篇博客文章将整件事情总结为:“阅卷机器的胜利”。

对那些倾向人工阅卷的人来说,还有更多坏消息。人工阅卷最快的速度——根据培生教育集团(Pearson)估计,阅卷人在每篇作文上最多只花两三分钟——大概 1 小时能给 30 篇考试作文打分。

美国教育考试服务中心(E.T.S.)研究部主任大卫•威廉姆森(David Williamson)表示,该中心开发的自动化阅卷机 “电子评分器”(e-Rater)可以在 20 秒内评阅 1.6 万篇作文。E.T.S. 每年开展和管理包括美国大学入学考试 SAT 在内的 5000 万次考试。

这就是结局了?阅卷机注定会接管整个地球吗?

麻省理工学院(MIT)写作项目部主任莱斯•佩雷尔曼(Les Perelman)的答案是否定的。

在给本科生上课之余,佩雷尔曼喜欢研究 E.T.S. 研究论文中提到的算法,从中了解电子评分器的思维方式。

他的研究有其局限性,因为 E.T.S. 是目前唯一允许他对其产品进行测试的教育机构。不过,他指出,自动阅卷机很容易骗,经过一些考前准备就很容易过关,它对什么是好作文设定了一个非常狭隘、僵化的标准,会迫使教师简化写作教学。

佩雷尔曼说,电子评分器的最大问题是不能鉴别内容的真实性。他告诉学生不必浪费时间去担心所写的内容是否准确,因为只要句子结构正确,随便写什么都行。他说:“如果你把 1812 年战争写成始于 1945 年,电子评分器也不会在意。”

佩雷尔曼发现,电子评分器喜欢长文章。他写了篇 716 个单词的文章,把十几句不知所云的话堆在一起,得到了最高分 6 分;而另外一篇逻辑通顺、行文优美的 567 个字的作文只得到了 5 分。

他说,自动阅卷机能够计数,因此它能设定一个好句子有多少个字、一个好段落有多少个句子。“一旦你了解了电子评分器的偏好,就不难提高你的考试成绩了。”他说。

他说,电子评分器不喜欢短句子或短的段落。

它们也不喜欢以“or”和“and ”开头的句子,或结构不完整的句子。

不过,佩雷尔曼说,它们喜欢连词,比如 “however”。根据程序设定,这类词汇显示了作者的思维复杂性。此外, “moreover” 也很好。

复杂的词汇在任何情况下都有效,因为电子评分器视其为词汇量丰富的表现。佩雷尔曼建议:“尽可能用大词。‘Egregious’比‘bad’要强。”

他说,论证的内容并不重要,只要让计算机看来论证结构严密就行。

有一道题目让学生们讨论为什么读大学的花费这么高,佩雷尔曼写头号原因就在于贪得无厌的助教们拿的薪酬过高。

“助教们的平均收入足有大学校长的 6 倍那么多,”他写道,“此外,他们还经常得到大量额外福利,比如乘坐私人飞机、去加勒比海度假,以及出任电影主演。”

电子评分器给了他6分。他又把艾伦•金斯堡(Allen Ginsberg)的《嚎叫》中的一句诗放进去,看看能否蒙混过关。

他过关了。

内容组合的可能性简直是无限的。如果用电子评分器来编辑报纸,罗杰•克莱门斯(Roger Clemens)可以高呼“不忘缅因号”;阿黛勒(Adele)可以演讲“不自由,毋宁死”;帕特里克•亨利(Patrick Henry)则会唱《像你这样的人》(Someone Like You)。

值得称道的是,E.T.S. 的研究人员让佩雷尔曼试用电子评分器一个月。威廉姆森说:“在 E.T.S.,我们为我们研究的透明度感到自豪。”

另外两家最大的营利性教育企业——卓越学习公司(Vantage Learning)和培生教育集团——则拒绝了我让佩雷尔曼测试他们产品的请求。

培生教育集团副总裁彼得•福尔兹(Peter Foltz)说:“他想证明阅卷机为什么不奏效。”

“是的,我持怀疑态度,”佩雷尔曼说,“这正是你们该让我测试它的原因。”

E.T.S. 的官员表示,佩雷尔曼给出的考前准备建议太过复杂,大多数学生都吸收不了;要是他们真能掌握,那他们用到的这种较高层次的复杂思维正是考试本身所希望奖励的。换句话说,如果学生们聪明到能够掌握如此复杂的考前准备方法,那么他们拿6分是理所应当的。

E.T.S. 也坦诚,辨别事实真假不是电子评分器的强项。该机构首席研究员保罗•迪恩(Paul Deane)说:“电子评分器不是设计来检查事实真假的。”

威廉姆斯补充说:“电子评分器也不懂得欣赏诗歌。”

他们说,佩雷尔曼设定了一个错误的前提,即把电子评分器当成人工阅卷员的代替品。他们指出,在使用电子评分器的重大考试比如研究生入学考试(GRE)中,作文试卷同时还会由一名阅卷员评分。如果人机评分之间出现差异,还会叫第二个人来查阅。

福尔兹表示,90% 的情况下,培生集团的智能作文评估软件(Intelligent Essay Assessor)都只是教师的课堂教学辅助工具。软件能即时把改进意见反馈给学生。学生们可以修改并重新提交作文。福尔兹说:“他们可能会写上 5 遍,然后再交给老师看。”

至于被机器评为好文章的通常是长文章,迪恩表示,这两者之间是存在关联的。写作好的人已经掌握了一些技能,可以写得更流畅,从而可以在有限的时间里写出更长的文章。

佩雷尔曼把“戏弄”电子评分器当作一大乐事。他写了一篇文章,然后从每个段落中随机砍掉一个句子,结果还是拿到了 6 分。

佩雷尔曼以前教过的两名计算机专业的学生告诉他说,他们可以设计一款安卓系统的应用程序来自动生成作文,并能从电子评分器拿到 6 分的满分。佩雷尔曼说,这件事情最妙的地方在于,智能手机可以直接把作文提交给电脑打分器,从头到尾根本不用人参与。

总之,可以套用已故伟人亚伯拉罕•林肯(Abraham Lincoln)说过的一句话:母马吃燕麦,雌鹿吃燕麦,小羊羔吃常春藤。

他接着说,小孩子也会吃常春藤,你不会吗?

 
吉瑞通网上阅卷
 
QQ  在线客服
QQ  销售咨询