您的位置首页>业界>

英特尔至强CPU系统上突破性的DL训练算法优于Volta GPU 3.5倍

导读 太平洋时间上午11:00更新:更正了该文章,以反映测试是使用单个V100 GPU进行的。赖斯大学的计算机科学家与英特尔实验室合作,宣布了一种突

太平洋时间上午11:00更新:更正了该文章,以反映测试是使用单个V100 GPU进行的。

赖斯大学的计算机科学家与英特尔实验室合作,宣布了一种突破性的新型深度学习算法– SLIDE –与传统的GPU算法相比,该算法在CPU上训练AI模型的速度更快。对于某些类型的计算,这可以有效地将训练最快的芯片的性能优势转移到CPU。

研究人员尤其将一个带有44个“至强级内核”的系统与一个带有八个具有张量内核的Nvida Volta V100 GPU的价值100,000美元的系统进行了基准测试,尽管他们仅使用一个V100进行了测试。Xeon系统使用SLIDE可以在一小时内完成任务,而使用TensorFlow实施的单个Volta V100则需要3.5小时。研究人员还指出,随着与成熟的(软件和硬件)平台竞争,该算法可能会进一步优化。例如,它尚未使用英特尔的DLBoost加速。

由于深度学习应用程序在过去几年中获得了蓬勃发展,因此Nvidia GPU被认为是训练模型的黄金标准-尽管经过训练的模型本身在部署时通常在CPU上运行,这称为推理。尽管如此,来自许多团体和初创公司的专用硬件已经投入生产。就Nvidia而言,它在2017 Volta架构中添加了专门的张量核心。

由于在TensorFlow等框架中大量使用矩阵乘法,因此GPU比CPU更受GPU的青睐,特别是一种称为反向传播的深度神经网络训练技术。由于用于并行执行许多计算的大量内核,这非常适合GPU。Nvidia的数据中心业务上一季度增长了41%,收入接近10亿美元。

赖斯(Rice)的新算法就在这里出现,称为亚线性深度学习引擎或SLIDE。赖斯布朗工程学院的助理教授Anshumali Shrivastava说,它可以在没有加速硬件的标准处理器上运行,并且可以“在具有大规模全连接架构的行业规模推荐数据集上胜过GPU”,他与研究生Beidi Chen和Tharun发明了SLIDE美第尼。

替代反向传播,它采用了另一种方法,即使用称为哈希的技术,该技术将神经网络训练转化为搜索问题-通过哈希表解决。

通常,哈希直接将某些输入映射到某些输出。通常使用相对简单的模块功能完成此映射。这有效地创建了输入的索引,称为哈希表。可以非常快速地搜索此表,因为哈希函数(例如模运算,模块编号为哈希表中条目的数量)会对其输入所位于的表条目进行编码。

赖斯通过参考实际训练的神经元来解释使用哈希的原因。简单来说,神经网络的输出神经元(例如在图像识别中)将对图像中识别的内容进行编码。在自动驾驶汽车中,这可能是行驶中的功能。完整的神经网络包含许多(层次的)神经元,这就是为什么它们是如此计算密集的原因。这为优化创造了机会,因为并非所有神经元都会在每种情况下对输出产生关键作用:

Medini说:“您无需在每种情况下都训练所有的神经元。”“我们认为,'如果我们只想选择相关的神经元,那就是搜索问题。'因此,从算法上讲,这个想法是使用局部敏感的散列来摆脱矩阵乘法。”

为了摆脱矩阵乘法并实现散列,研究人员指出,他们是使用C ++从头开始编写算法的,而不是像TensorFlow这样的流行框架。此功能使其可能不适合GPU。

研究人员进一步说,SLIDE的一个关键特性是它是数据并行的。这意味着SLIDE可以同时训练所有输出要素(例如所有道路要素)。一位研究人员说:“这对CPU的并行性有更好的利用。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。