英文版的维基百科有将近 600 万个词条。如果你是一名打算作弊的学生,600 万篇文章已经为你写好了,连文献脚注都一应俱全。但说真的,抄袭并不是一种高级的把戏——如果把抄袭的文章放到搜索引擎里,那你就完蛋了。
但如果有个论文工厂的幽灵枪手代你完成期末文章又如何?
“标准的查重软件发现不了这类作弊。”丹麦哥本哈根大学(University of Copenhagen)的数据分析师史蒂芬·洛伦岑(Stephan Lorenzen)说。
在丹麦,文章代写在高中越来越成问题。所以洛伦岑和他的同事开发了一个名为“幽灵写手”(Ghostwriter)的程序来侦测舞弊。
该程序的核心是一个神经网络,训练集和测试集包含了 1 万名丹麦学生的 13 万篇文章。在“阅读”过数万篇被标记为同一作者或其他作者撰写的文章后,程序会教导自己去“感受”那些能泄露作弊的行文特征。例如,同一名学生作文中标点的使用习惯是否相同?拼写错误是否相同?缩写是否一致?
通过仔细检查类似的不一致之处,“幽灵写手”有 90% 的几率能准确指出作弊论文。该团队将研究结果作为会议论文发表在了欧洲人工神经网络、计算智能和机器学习研讨会(European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning)上。
这对学生们还有另一方面的好处。随着你学习如何写作,你的高中作文很可能会写得越来越好,而机器可以检测出你的进步。“最终的设想是利用程序探测哪些学生有学习困难,因为他们的文笔并没有按计划提高。”
这样一来老师能给予有需要的孩子以帮助,同时也能揪出作弊的家伙。