志德阳光会秦毅中：DPU搅动传统计算体系

导读志德阳光会秦毅中新闻，志德阳光会秦毅中发现，很长一段时间以来，算力的天下都由中央处置器(CPU)和图形处置单元(GPU)平分，在志德阳光会秦

志德阳光会秦毅中新闻，志德阳光会秦毅中发现，很长一段时间以来，算力的天下都由中央处置器(CPU)和图形处置单元(GPU)平分，在志德阳光会秦毅中看来，这也是由于CPU和GPU为庞大的新超大范围数据中心提供了动力，才使得计算得以摆脱PC和效劳器的繁琐局限。

但是，近几年，随着系统中的CPU接受越来越多的网络和存储工作负载，已有的通用CPU和GPU开端不能完整满足快速变化的应用需求，而性能更强大，愈加专用，愈加异构的数据处置单元(DPU)登上了历史的舞台。

当前，DPU已成为以数据为中心的加速计算模型的三大支柱之一。其改动计算体系的端倪也正在浮现。

从二分天下到三分天下

自1950年代以来，中央处置器(CPU)就不断是每台计算机或智能设备的中心，是大多数计算机中独一的可编程元件。并且，CPU降生后，工程师也不断没放弃让CPU以耗费最少的能源完成最快的计算速度的努力。即使如此，人们还是发现CPU做图形计算太慢。在这样的背景下，图形处置单元(GPU)应运而生。

英伟达提出了GPU的概念，将GPU提升到了一个单独的计算单元的位置。GPU是在缓冲区中快速操作和修正内存的专用电路，由于能够加速图片的创立和渲染，所以得以在嵌入式系统、挪动设备、个人电脑以及工作站等设备上普遍应用。1990年代以来，GPU则逐步成为了计算的中心。

事实上，最初的GPU还只是用来做功用强大的实时图形处置。后来，凭仗其优秀的并行处置才能，GPU曾经成为各种加速计算任务的理想选择。随着机器学习和大数据的开展，很多公司都会运用GPU加速锻炼任务的执行，这也是今天数据中心中比拟常见的用例。

相较于CPU，大多数的CPU不只希冀在尽可能短的时间内更快地完成任务以降低系统的延迟，还需求在不同任务之间快速切换保证明时性。正是由于这样的需求，CPU常常都会串行地执行任务。而GPU的设计则与CPU完整不同，它希冀进步系统的吞吐量，在同一时间竭尽全力处置更多的任务。

设计理念上的差别也最终反映到了CPU和GPU的中心数量上，GPU常常具有更多的中心数量。当然，CPU和GPU的差别也很好地构成了互补，其组合搭配在过去的几十年里，也为庞大的新超大范围数据中心提供了的动力，使得计算得以摆脱PC和效劳器的繁琐局限。

但是，近几年，随着系统中的CPU接受越来越多的网络和存储工作负载，已有的通用CPU和GPU开端不能完整满足快速变化的应用需求。据IDC统计，近10年来全球算力增长明显滞后于数据的增长。每3.5个月全球算力的需求就会翻一倍，远远超越了当前算力的增长速度。

在此驱动下，全球计算、存储和网络根底设备也在发作基本转变，一些复杂的工作负载，在通用的CPU上不能很好的处置。或者说，以CPU为中心的数据中心架构曾经不能满足需求，以数据为中心才干更好满足市场和应用需求。

英伟达网络事业部亚太区市场开发高级总监宋庆春此前就表示：“以前计算范围和数据量没那么大，冯诺依曼架构很好地处理了进步计算性能的问题。随着数据量越来越大，以及AI技术的开展，传统的计算模型会形成网络拥塞，继续提升数据中心的性能面临应战。”

数据处置单元(DPU)的呈现或将挽救这一窘境，作为最新开展起来的专用途理器的一个大类，DPU为高带宽、低延迟、数据密集的计算场景提供计算引擎。当前，DPU已成为以数据为中心的加速计算模型的三大支柱之一，其还将成为CPU的卸载引擎，释放CPU算力到上层。

DPU蔚然成风

依照技术呈现的时间次第和特性，DPU的开展则能够分为三个阶段。

第一阶段即智能设备阶段，这一阶段也能够称为DPU的史前时期。在这一阶段，处理节点间流量问题的最简单的方式是增加网卡的处置才能，经过在网卡上面引入SoC或者FPGA的方式加速某些特定流量应用，从而增强网络的牢靠性，降低网络延迟，提升网络性能。

其中，Xilinx和Mellanox在这个范畴停止的比拟早，可惜由于战略才能缺乏，错失了进一步开展的时机，逐步被DPU取代，最终被淘汰。其中Mellanox被Nvidia收买，Xilinx被AMD拿下。智能网卡成为DPU的应用产品而存在。

第二阶段是数据处置芯片阶段，这个阶段也是数据芯片真正开端被注重的阶段。最开端由Fungible在2019年提出，但没有惹起太多反响英伟达将收买来的Mellanox重新包装之后，2020年10月又重新定义了DPU这个概念，这一次的重新定义使得DPU这个概念一炮而红。

详细来看，DPU被定义为一种新型可编程处置器，集三个关键要素于一身，包括：行业规范的、高性能及软件可编程的多核CPU，通常基于已应用普遍的Arm架构，与其的SOC组件亲密配合;高性能网络接口，能以线速或网络中的可用速度解析、处置数据，并高效地将数据传输到GPU和CPU;以及各种灵敏和可编程的加速引擎，能够卸载AI、机器学习、平安、电信和存储等应用，并提升性能。

第三阶段则是根底设备芯片阶段。第三阶段的计划由Intel提出，变成了FPGA+Xeon-D的形式，经过PCB版的方式放在一个智能网卡上。不难发现，Intel将IPU定位成host CPU上面一个“外挂”的小CPU。并且，将来这个“外挂”CPU和FPGA会封装到一个芯片中，构成一个经过PCIe总线互联的两个CPU系统。

当然，无论处于哪个阶段，一切这些DPU功用关于完成平安的、裸性能的、原生云计算的下一代云上大范围计算都具有重要意义。正如英伟达首席执行官黄仁勋此前在演讲中表示，“它将成为将来计算的三大支柱之一”，“CPU用于通用计算，GPU用于加速计算，而数据中心中传输数据的DPU则停止数据处置”。

一方面，GPU更平安，由于控制平面能够在系统内和系统集群之间与数据平面别离。DPU能够执行本来需求CPU处置的网络、存储和平安等任务。这就意味着假如在数据中心中采用了DPU，那么CPU的不少运算才能能够被释放出来，去执行普遍的企业应用。

另一方面，DPU还释放了效劳器的容量，以便它们能够恢复到应用程序计算。在一些具有大量I / O和繁重虚拟化的系统上内核本钱缩减一半，因而吞吐量进步了2倍。除了内核的本钱，还要计算整个机器的本钱，包括其内存和I / O以及所释放的工作量。

此外，DPU丰厚的、灵敏和可编程的加速引擎可减轻和改善AI和机器学习应用的性能。一切的这些DPU功用关于完成隔离的裸机云原生计算至关重要，它将定义下一代云范围计算，其改动存储行业的端倪也正在浮现。

以数据为中心

DPU宽广的市场空间，也让国际巨头开端纷繁提早规划。目前DPU主要厂商有Intel (收买Bearfoot)，Mellanox(已被Nvidia收买)，Marvell(收买了Cavium)，Broadcom，Fungible(初创)，Pensando(初创)等。

其中，Intel是基于FPGA完成的，主要面向交流机、路由器芯片;Broadcom基于Arm完成，也是主要面向交流机、路由器芯片;Marvell经过收买Cavium，基于Arm完成，主要面向5G的基带;初创公司Pensando经过软件定义网络处置器，主要面向支持P4的SDN。

中科驭数的开创团队是国内较早停止DPU芯片研发的先行者。他们创新性提出了软件定义加速器技术(Software Defined Accelerator)，自主研发了KPU(Kernel Processing Unit)芯片架构，2019年设计了业界首颗数据库与时序数据处置交融加速芯片，曾经胜利流片。

此外，以KPU架构为中心，在2019年流片第一颗芯片的根底上，中科驭数宣布了其下一颗DPU芯片研发方案，功用层面包括完善的L2/ L3/L4层的网络协议处置，可处置高达200G网络带宽数据。其次交融数据库、大数据处置才能，直接面向OLAP、OLTP及大数据处置平台，如Spark等。另外还包括机器学习计算核以及平安加密运算核。该芯片估计将于2021年底流片。

简直能够肯定，DPU已成为将来以数据为中心的必需。但DPU仍然面临其自身需求克制的关卡。如今，DPU最大的问题就是“过热”，即功耗太高。以前一个网络DMA芯片功耗才5瓦左右，如今一个DPU动则100瓦以上(Fungible F1 120瓦)。

这意味着，大局部应用场景将无法用接受这么大功耗的网络设备。特别是在100/200G以上，光模块功耗曾经超越网络设备的状况下，再增加一个100瓦的网络DPU，会极大的提升网络的能源耗费，所以必需处理DPU功耗问题。

和功耗一样，当前的的DPU还面临本钱太高的问题，基于DPU的处理计划变没有降低网络互联的本钱。此外，目前DPU都是面向数据中心的应用场景。但效劳器增长空间更多在边缘计算中心，而且将来边缘计算互联将成为网络技术趋向。因而，DPU还必需思索边缘计算场景。

当然，无论如何，DPU的呈现并非要替代CPU和GPU，而是更好地满足数据中心市场的需求。能够预见，从CPU、GPU再到DPU的一体的架构将会让管理程序、调度程序都会变得愈加容易。从边缘到中心数据中心，统一架构、统一管理、统一调度或将在不久之后得以完成。

(本内容属于网络转载，文中涉及图片等内容如有侵权，请联系编辑删除。市场有风险，选择需谨慎!此文不作买卖及投资依据。)

猜你喜欢

最新文章