Duolingo的AI推动了英语水平测试

导读语言学习初创公司Duolingo利用AI和机器学习自动创建和评估英语水平测试，该论文发表在《计算语言学协会期刊》上。在其中，研究人员揭开了Du

语言学习初创公司Duolingo利用AI和机器学习自动创建和评估英语水平测试，该论文发表在《计算语言学协会期刊》上。在其中，研究人员揭开了Duolingo英语测验的基础算法系列的帷幕，Duolingo英语测验是一项每小时49美元的在家中评估，现已被2,000多个大学课程所接受，包括哥伦比亚大学，麦吉尔大学，纽约大学，伦敦大学学院，和威廉姆斯。

像Duolingo这样的AI生成的测试对于那些希望在大流行期间雇用英语作为第二语言(ESL)候选人的雇主来说可能是天赐的礼物。诸如英语作为外语考试(TOEFL)之类的能力评估要求考生前往受监管的地点，这在行政命令已要求关闭非必要业务的国家中是一个难题。Duolingo发言人可能并不奇怪，他说，全球和中国的考试量分别增长了300%和375%，自大流行开始以来，已有500个新计划开始接受Duolingo英语考试。

正如论文的合著者所解释的，Duolingo英语测验借鉴了心理学的项目反应理论来设计和评估测验能力的测度。它是大多数高水平现代标准化测试的基础，并假设对测试项目(即问题)的响应是通过离散代表考生能力和问题难度的函数建模的。幸运的是，对于Duolingo来说，这种范例非常适合目标是估算能力和难度等变量的任务。可以创建问题并与受试者进行测试，以产生等级(正确，错误)的对(检查，问题)，然后可以从这些参数中推导出预期未来应试者能力的参数。

计算机自适应测试(CAT)技术使Duolingo通过向能力较高的应试者分配更难的问题，从而设计出更有效的语言测试，反之亦然。迭代自适应算法观察测试过程中考生对问题的反应，并评估其能力。然后，根据当前估算值的效用函数，选择下一个问题，然后重复该过程，直到测试完成。

对于Duolingo英语测验，Duolingo设计了一个100分的评分系统，该系统对应于欧洲通用参考框架(CEFR)，该国际标准描述了外语学习者的阅读，写作，听力和口语能力。然后，该公司的研究人员采用了一系列不同的测试格式，包括：

是/否，用于评估词汇广度的方式(文本与音频)的词汇测试会有所不同，其中应考生会获得文本和音频答案，并且必须将英语单词与英语类伪单词(在形态和语音上合理的单词中区分出来，但没有)英文)。

c-test格式，通过提供某些单词已被“损坏”的考生段落(通过删除每个其他单词的后半部分)并要求他们填写缺少的字母来衡量阅读能力。

通过让考生抄录录音来利用听和写技能的听写测试。

挑剔的演讲任务，要求考生大声说一句话。

为了追求可以根据难度对问题进行排名的词汇测试算法，以便使整体能力测试中的问题顺序适合能力，Duolingo设立了一组语言学博士学位，并具有英语教学经验，编制了一系列带有标签的单词清单根据CEFR级别(从“初学者/突破”到“熟练/精通”)。他们将这种语料库喂给AI模型以对其进行训练，他们报告说这些模型最终了解到高级单词(甚至是伪单词)很少见，并且大多具有Greco-Latin词源，而基本单词则很常见，并且大多起源于盎格鲁撒克逊语。

对于c测验，Duolingo利用了从在线资源中收集的一系列语料库，包括英语自学网站，英语水平考试的考试准备资源，已为Simple English重写的English Wikipedia文章以及众包英语句子数据库Tatoeba-结合回归和排名技术来构建较长格式的AI模型。所讨论的模型先在加标签的文本上训练，然后再在具有类似语言特征的未加标签的文本上进行训练，不仅学会预测给定c测验的难度，而且还能预测听写和引语测试的难度。

实际上，Duolingo报告说，经过训练的模型正确地将较困难的段落正确地排在了较简单段落的85%的位置上，并且其预测与四位专家小组的预测相似。研究人员使用这些预测从语料库中的段落和专家撰写的400多个段落中自动生成c检验项目。

最终，将所有问题自动提供给Duolingo英语水平考生需要创建CAT管理算法，该算法已针对25,000多个测试项目进行了培训，以智能地循环显示格式(例如，是/否词汇文本或音频，c-test，听写，并引发)。随机选择前四个问题后，算法会估算测试分数，并选择下一个问题的难度进行相应采样，然后重复此过程，直到测试超过25个项目(或40分钟)。

在真实的测试场景中，人工指导员在每天收集的数百万个数据点上训练的AI的帮助下，在多个回合中检查每个测试会话的大约75种行为，以检测违反规则的情况。除此之外，在测试过程中，计算机视觉算法会(通过网络摄像头)验证应试者的身份，并且如果他们尝试访问外部应用程序或插件，则会自动取消测试。

该论文的合著者对2018年进行的21,000项考试中的500,000多名考生-问题对进行的分析显示，Duolingo英语考试的排名几乎与传统的人类飞行员考试所提供的排名相同。此外，该测试与英语评估(例如TOEFL和国际英语测试系统(IELTS))相关性“显着”(0.73)，并且在可靠性(测试的一致性和稳定性)和测试安全性方面达到了行业标准。(Duolingo发现，应试者平均可以参加大约1,000次测试，然后才能再次看到相同的测试项目。)

在将来的工作中，Duolingo研究人员计划调查能力相同但不同子组(例如性别或年龄)的人在测试问题上获得成功的不平等概率的程度。此外，他们希望研究是否可以将诸如叙事性和词具体性之类的其他指标纳入Duolingo英语水平模型中，以预测文本的难度和理解力。

为此，最近发布的测试版本包含更多细腻的口语和写作练习，并且具有更高的测试分数可靠性。

“英语是在Duolingo上学习的最受欢迎的语言，许多学习者还询问我们是否可以正式认证他们的英语技能，以帮助他们获得高等教育和更好的工作机会，” Duolingo机器学习科学家Burr Settles和评估科学家Geoffrey LaFlair在今天发表的博客文章中。“ Duolingo是一家以使命为导向的公司，我们创建了Duolingo英语测验以打破高等教育的障碍。结果，我们了解到，一种在线的，个性化的测试方法不仅对于增加访问量很重要-这是一项必不可少的创新，正在重塑我们所知道的教育体系，我们很高兴能引领这一潮流。”

Duolingo在支持AI的英语测试方面的投资与在其语言学习平台核心上对AI的改进相吻合，该语言旨在通过自动针对每个语言学习者量身定制课程，从而使课程更具吸引力。统计和机器学习模型(例如半衰期回归)可以分析数百万用户的错误模式，以预测一个人长期记忆中每个单词的“半衰期”，并帮助幕后内容创作者量身定制初学者，中级，和高级材料，Settles在去年7月的一次采访中告诉VentureBeat。

“英语中有数百万个单词，也许有10,000个高频单词-您按什么顺序教它们?您如何将它们串在一起?”他说。“我们AI战略的核心部分是尽可能接近人与人的体验。”

猜你喜欢

最新文章