麻省理工学院提出了可以压缩模型并鼓励代理商探索的AI框架

导读在2020年国际学习表示会议(ICLR)接受的两篇论文中，麻省理工学院的研究人员研究了激励软件代理探索其环境的新方法和修剪算法，以使AI应用程

在2020年国际学习表示会议(ICLR)接受的两篇论文中，麻省理工学院的研究人员研究了激励软件代理探索其环境的新方法和修剪算法，以使AI应用程序运行得更快。总体而言，这两种方法可以促进自主工业，商业和家用机器的发展，这些机器需要的计算量更少，但同时也比目前的野外产品具有更高的功能。(例如，考虑在Raspberry Pi上构建一个库存检查机器人，该机器人可以快速学习如何导航杂货店的小岛。)

“好奇心”算法

一个团队创建了一个元学习算法，该算法生成了52,000个探索算法，或驱动代理广泛探索其周围环境的算法。他们确定的两个是全新的，并进行了探索，从而改善了一系列模拟任务的学习-从登上月球车，举起机械臂到移动类似蚂蚁的机器人。

团队的元学习系统首先选择一组高级操作(例如，基本程序，机器学习模型等)来指导座席执行各种任务，例如记住以前的输入，比较和对比当前和过去的输入，并使用学习方法来更改自己的模块。元学习系统从总共近三打的操作中采购，一次最多合并七个，从而创建了描述上述52,000种算法的计算图。

测试所有算法将需要数十年的时间，因此合著者通过消除根据其代码结构预测性能不佳的算法，从而限制了他们对最佳算法的搜索。然后，该团队在一项基本的网格级导航任务上测试了最有前途的候选人，该任务需要大量的探索但计算量最少。表现出色的候选人的表现成为新的基准，随着时间的推移，甚至淘汰了更多的候选人。

研究人员称，四台机器搜索了十多个小时以找到最佳算法。超过100个是高性能的，前16个既有用又新颖，性能与人工设计的算法一样好(或优于人工设计的算法)。

该团队将前16个模型的性能归因于他们共享的两个探索功能。首先，特工在有机会搬家的新地方获得奖励。在第二个模型中，一个AI模型学习预测代理的未来状态，而第二个模型则回忆过去，并且协同工作以预测当前，这样，如果该预测是错误的，则双方都会奖励自己，以表明他们拥有发现了一些新东西。

研究人员指出，由于元学习过程会生成高级计算机代码作为输出，因此可以对这两种算法进行剖析，以了解其决策过程。麻省理工学院的研究生马丁·施耐德(Martin Schneider)在一份声明中说：“我们生成的算法可以被人类读取和解释，但是要真正理解我们必须通过每个变量和操作进行推理的代码，以及它们如何随着时间演变。”他与研究生Ferran Alet和MIT计算机科学与电气工程教授Leslie Kaelbling和TomásLozano-Pérez共同撰写了这项研究。“利用计算机评估大量算法的能力以及我们人类解释和改进这些思想的能力，设计算法和工作流程是一个有趣的公开挑战。”

缩小AI模型

在两项研究的第二项中，麻省理工学院的团队描述了一个框架，该框架可以可靠地压缩模型，从而使其能够在资源受限的设备上运行。尽管研究人员承认他们不理解为什么它会如此出色地工作，但他们声称比其他压缩方法(包括那些被认为是最先进的压缩方法)更容易，更快地实现。

该框架是“彩票假设”的产物，该论文表明，如果在训练过程中识别出正确的子模型，则模型可以减少90%的元素，从而表现良好。这项研究的合著者(不是巧合地撰写了“彩票假设”)建议将模型“倒带”到其早期训练状态，而无需任何参数(例如，模型内部的配置变量，其值可以根据给定值进行估算)数据)再进行培训。这种修剪方法通常会导致模型随着时间的流逝变得不那么精确，但是这种方法设法将其恢复到接近其原始精度。

对于更广泛的AI研究领域而言，这是个好消息，其广泛的可访问性和可持续性问题仍未解决。去年6月，马萨诸塞州大学阿默斯特分校的研究人员发布了一项研究，估计训练和搜索某种模型所需的电量涉及约626,000磅的二氧化碳排放，相当于平均寿命的近5倍。美国车。根据最近的Synced报告，华盛顿大学的Grover机器学习模型旨在生成和检测虚假新闻，在两周的培训中花费了25,000美元。

麻省理工学院助理教授宋涵说：“我很高兴看到新的修剪和再培训技术不断发展。”他建立了行业标准的修剪算法AMC，但并未参与这项特殊研究。他最近与他人合着了一篇论文，描述了一种AI培训技术，该技术可以通过大型模型提高效率，该大型模型包含可以针对各种平台定制的许多预训练子模型。“ [它将使更多的人访问高性能AI应用程序。”

麻省理工学院博士学生Alexa Renda与MIT助理教授和博士生合着了这项研究。学生乔纳森·弗兰克(Jonathan Frankle)。两者都是麻省理工学院计算机科学和人工科学实验室(CSAIL)的成员。

猜你喜欢

最新文章