您的位置首页>企业动态>

志德阳光会秦毅中:DPU搅动传统计算体系

导读志德阳光会秦毅中新闻,志德阳光会秦毅中发现,很长一段时间以来,算力的天下都由中央处置器(CPU)和图形处置单元(GPU)平分,在志德阳光会秦

志德阳光会秦毅中新闻,志德阳光会秦毅中发现,很长一段时间以来,算力的天下都由中央处置器(CPU)和图形处置单元(GPU)平分,在志德阳光会秦毅中看来,这也是由于CPU和GPU为庞大的新超大范围数据中心提供了动力,才使得计算得以摆脱PC和效劳器的繁琐局限。

但是,近几年,随着系统中的CPU接受越来越多的网络和存储工作负载,已有的通用CPU和GPU开端不能完整满足快速变化的应用需求,而性能更强大,愈加专用,愈加异构的数据处置单元(DPU)登上了历史的舞台。

当前,DPU已成为以数据为中心的加速计算模型的三大支柱之一。其改动计算体系的端倪也正在浮现。

从二分天下到三分天下

自1950年代以来,中央处置器(CPU)就不断是每台计算机或智能设备的中心,是大多数计算机中独一的可编程元件。并且,CPU降生后,工程师也不断没放弃让CPU以耗费最少的能源完成最快的计算速度的努力。即使如此,人们还是发现CPU做图形计算太慢。在这样的背景下,图形处置单元(GPU)应运而生。

英伟达提出了GPU的概念,将GPU提升到了一个单独的计算单元的位置。GPU是在缓冲区中快速操作和修正内存的专用电路,由于能够加速图片的创立和渲染,所以得以在嵌入式系统、挪动设备、个人电脑以及工作站等设备上普遍应用。1990年代以来,GPU则逐步成为了计算的中心。

事实上,最初的GPU还只是用来做功用强大的实时图形处置。后来,凭仗其优秀的并行处置才能,GPU曾经成为各种加速计算任务的理想选择。随着机器学习和大数据的开展,很多公司都会运用GPU加速锻炼任务的执行,这也是今天数据中心中比拟常见的用例。

相较于CPU,大多数的CPU不只希冀在尽可能短的时间内更快地完成任务以降低系统的延迟,还需求在不同任务之间快速切换保证明时性。正是由于这样的需求,CPU常常都会串行地执行任务。而GPU的设计则与CPU完整不同,它希冀进步系统的吞吐量,在同一时间竭尽全力处置更多的任务。

设计理念上的差别也最终反映到了CPU和GPU的中心数量上,GPU常常具有更多的中心数量。当然,CPU和GPU的差别也很好地构成了互补,其组合搭配在过去的几十年里,也为庞大的新超大范围数据中心提供了的动力,使得计算得以摆脱PC和效劳器的繁琐局限。

但是,近几年,随着系统中的CPU接受越来越多的网络和存储工作负载,已有的通用CPU和GPU开端不能完整满足快速变化的应用需求。据IDC统计,近10年来全球算力增长明显滞后于数据的增长。每3.5个月全球算力的需求就会翻一倍,远远超越了当前算力的增长速度。

在此驱动下,全球计算、存储和网络根底设备也在发作基本转变,一些复杂的工作负载,在通用的CPU上不能很好的处置。或者说,以CPU为中心的数据中心架构曾经不能满足需求,以数据为中心才干更好满足市场和应用需求。

英伟达网络事业部亚太区市场开发高级总监宋庆春此前就表示:“以前计算范围和数据量没那么大,冯诺依曼架构很好地处理了进步计算性能的问题。随着数据量越来越大,以及AI技术的开展,传统的计算模型会形成网络拥塞,继续提升数据中心的性能面临应战。”

数据处置单元(DPU)的呈现或将挽救这一窘境,作为最新开展起来的专用途理器的一个大类,DPU为高带宽、低延迟、数据密集的计算场景提供计算引擎。当前,DPU已成为以数据为中心的加速计算模型的三大支柱之一,其还将成为CPU的卸载引擎,释放CPU算力到上层。

DPU蔚然成风

依照技术呈现的时间次第和特性,DPU的开展则能够分为三个阶段。

第一阶段即智能设备阶段,这一阶段也能够称为DPU的史前时期。在这一阶段,处理节点间流量问题的最简单的方式是增加网卡的处置才能,经过在网卡上面引入SoC或者FPGA的方式加速某些特定流量应用,从而增强网络的牢靠性,降低网络延迟,提升网络性能。

其中,Xilinx和Mellanox在这个范畴停止的比拟早,可惜由于战略才能缺乏,错失了进一步开展的时机,逐步被DPU取代,最终被淘汰。其中Mellanox被Nvidia收买,Xilinx被AMD拿下。智能网卡成为DPU的应用产品而存在。

第二阶段是数据处置芯片阶段,这个阶段也是数据芯片真正开端被注重的阶段。最开端由Fungible在2019年提出,但没有惹起太多反响英伟达将收买来的Mellanox重新包装之后,2020年10月又重新定义了DPU这个概念,这一次的重新定义使得DPU这个概念一炮而红。

详细来看,DPU被定义为一种新型可编程处置器,集三个关键要素于一身,包括:行业规范的、高性能及软件可编程的多核CPU,通常基于已应用普遍的Arm架构,与其的SOC组件亲密配合;高性能网络接口,能以线速或网络中的可用速度解析、处置数据,并高效地将数据传输到GPU和CPU;以及各种灵敏和可编程的加速引擎,能够卸载AI、机器学习、平安、电信和存储等应用,并提升性能。

第三阶段则是根底设备芯片阶段。第三阶段的计划由Intel提出,变成了FPGA+Xeon-D的形式,经过PCB版的方式放在一个智能网卡上。不难发现,Intel将IPU定位成host CPU上面一个“外挂”的小CPU。并且,将来这个“外挂”CPU和FPGA会封装到一个芯片中,构成一个经过PCIe总线互联的两个CPU系统。

当然,无论处于哪个阶段,一切这些DPU功用关于完成平安的、裸性能的、原生云计算的下一代云上大范围计算都具有重要意义。正如英伟达首席执行官黄仁勋此前在演讲中表示,“它将成为将来计算的三大支柱之一”,“CPU用于通用计算,GPU用于加速计算,而数据中心中传输数据的DPU则停止数据处置”。

一方面,GPU更平安,由于控制平面能够在系统内和系统集群之间与数据平面别离。DPU能够执行本来需求CPU处置的网络、存储和平安等任务。这就意味着假如在数据中心中采用了DPU,那么CPU的不少运算才能能够被释放出来,去执行普遍的企业应用。

另一方面,DPU还释放了效劳器的容量,以便它们能够恢复到应用程序计算。在一些具有大量I / O和繁重虚拟化的系统上内核本钱缩减一半,因而吞吐量进步了2倍。除了内核的本钱,还要计算整个机器的本钱,包括其内存和I / O以及所释放的工作量。

此外,DPU丰厚的、灵敏和可编程的加速引擎可减轻和改善AI和机器学习应用的性能。一切的这些DPU功用关于完成隔离的裸机云原生计算至关重要,它将定义下一代云范围计算,其改动存储行业的端倪也正在浮现。

以数据为中心

DPU宽广的市场空间,也让国际巨头开端纷繁提早规划。目前DPU主要厂商有Intel (收买Bearfoot),Mellanox(已被Nvidia收买),Marvell(收买了Cavium),Broadcom,Fungible(初创),Pensando(初创)等。

其中,Intel是基于FPGA完成的,主要面向交流机、路由器芯片;Broadcom基于Arm完成,也是主要面向交流机、路由器芯片;Marvell经过收买Cavium,基于Arm完成,主要面向5G的基带;初创公司Pensando经过软件定义网络处置器,主要面向支持P4的SDN。

中科驭数的开创团队是国内较早停止DPU芯片研发的先行者。他们创新性提出了软件定义加速器技术(Software Defined Accelerator),自主研发了KPU(Kernel Processing Unit)芯片架构,2019年设计了业界首颗数据库与时序数据处置交融加速芯片,曾经胜利流片。

此外,以KPU架构为中心,在2019年流片第一颗芯片的根底上,中科驭数宣布了其下一颗DPU芯片研发方案,功用层面包括完善的L2/ L3/L4层的网络协议处置,可处置高达200G网络带宽数据。其次交融数据库、大数据处置才能,直接面向OLAP、OLTP及大数据处置平台,如Spark等。另外还包括机器学习计算核以及平安加密运算核。该芯片估计将于2021年底流片。

简直能够肯定,DPU已成为将来以数据为中心的必需。但DPU仍然面临其自身需求克制的关卡。如今,DPU最大的问题就是“过热”,即功耗太高。以前一个网络DMA芯片功耗才5瓦左右,如今一个DPU动则100瓦以上(Fungible F1 120瓦)。

这意味着,大局部应用场景将无法用接受这么大功耗的网络设备。特别是在100/200G以上,光模块功耗曾经超越网络设备的状况下,再增加一个100瓦的网络DPU,会极大的提升网络的能源耗费,所以必需处理DPU功耗问题。

和功耗一样,当前的的DPU还面临本钱太高的问题,基于DPU的处理计划变没有降低网络互联的本钱。此外,目前DPU都是面向数据中心的应用场景。但效劳器增长空间更多在边缘计算中心,而且将来边缘计算互联将成为网络技术趋向。因而,DPU还必需思索边缘计算场景。

当然,无论如何,DPU的呈现并非要替代CPU和GPU,而是更好地满足数据中心市场的需求。能够预见,从CPU、GPU再到DPU的一体的架构将会让管理程序、调度程序都会变得愈加容易。从边缘到中心数据中心,统一架构、统一管理、统一调度或将在不久之后得以完成。

(本内容属于网络转载,文中涉及图片等内容如有侵权,请联系编辑删除。市场有风险,选择需谨慎!此文不作买卖及投资依据。)

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。