英特尔至强CPU系统上突破性的DL训练算法优于Volta GPU 3.5倍

导读太平洋时间上午11:00更新：更正了该文章，以反映测试是使用单个V100 GPU进行的。赖斯大学的计算机科学家与英特尔实验室合作，宣布了一种突

太平洋时间上午11:00更新：更正了该文章，以反映测试是使用单个V100 GPU进行的。

赖斯大学的计算机科学家与英特尔实验室合作，宣布了一种突破性的新型深度学习算法– SLIDE –与传统的GPU算法相比，该算法在CPU上训练AI模型的速度更快。对于某些类型的计算，这可以有效地将训练最快的芯片的性能优势转移到CPU。

研究人员尤其将一个带有44个“至强级内核”的系统与一个带有八个具有张量内核的Nvida Volta V100 GPU的价值100,000美元的系统进行了基准测试，尽管他们仅使用一个V100进行了测试。Xeon系统使用SLIDE可以在一小时内完成任务，而使用TensorFlow实施的单个Volta V100则需要3.5小时。研究人员还指出，随着与成熟的(软件和硬件)平台竞争，该算法可能会进一步优化。例如，它尚未使用英特尔的DLBoost加速。

由于深度学习应用程序在过去几年中获得了蓬勃发展，因此Nvidia GPU被认为是训练模型的黄金标准-尽管经过训练的模型本身在部署时通常在CPU上运行，这称为推理。尽管如此，来自许多团体和初创公司的专用硬件已经投入生产。就Nvidia而言，它在2017 Volta架构中添加了专门的张量核心。

由于在TensorFlow等框架中大量使用矩阵乘法，因此GPU比CPU更受GPU的青睐，特别是一种称为反向传播的深度神经网络训练技术。由于用于并行执行许多计算的大量内核，这非常适合GPU。Nvidia的数据中心业务上一季度增长了41%，收入接近10亿美元。

赖斯(Rice)的新算法就在这里出现，称为亚线性深度学习引擎或SLIDE。赖斯布朗工程学院的助理教授Anshumali Shrivastava说，它可以在没有加速硬件的标准处理器上运行，并且可以“在具有大规模全连接架构的行业规模推荐数据集上胜过GPU”，他与研究生Beidi Chen和Tharun发明了SLIDE美第尼。

替代反向传播，它采用了另一种方法，即使用称为哈希的技术，该技术将神经网络训练转化为搜索问题-通过哈希表解决。

通常，哈希直接将某些输入映射到某些输出。通常使用相对简单的模块功能完成此映射。这有效地创建了输入的索引，称为哈希表。可以非常快速地搜索此表，因为哈希函数(例如模运算，模块编号为哈希表中条目的数量)会对其输入所位于的表条目进行编码。

赖斯通过参考实际训练的神经元来解释使用哈希的原因。简单来说，神经网络的输出神经元(例如在图像识别中)将对图像中识别的内容进行编码。在自动驾驶汽车中，这可能是行驶中的功能。完整的神经网络包含许多(层次的)神经元，这就是为什么它们是如此计算密集的原因。这为优化创造了机会，因为并非所有神经元都会在每种情况下对输出产生关键作用：

Medini说：“您无需在每种情况下都训练所有的神经元。”“我们认为，'如果我们只想选择相关的神经元，那就是搜索问题。'因此，从算法上讲，这个想法是使用局部敏感的散列来摆脱矩阵乘法。”

为了摆脱矩阵乘法并实现散列，研究人员指出，他们是使用C ++从头开始编写算法的，而不是像TensorFlow这样的流行框架。此功能使其可能不适合GPU。

研究人员进一步说，SLIDE的一个关键特性是它是数据并行的。这意味着SLIDE可以同时训练所有输出要素(例如所有道路要素)。一位研究人员说：“这对CPU的并行性有更好的利用。”

猜你喜欢

最新文章