继CPU、GPU 之后,DPU 在数据中心“上位”

AI、5G、云计算技术的发展已经开始改变世界,作为承载这些技术,支撑数字化转型的重要载体,面临着众多挑战。这其中,已有的通用 不能完全满足快速变化的应用需求,性能更强大,更加专用,更加异构的芯片更能满足需求。

继CPU、GPU 之后,DPU 在数据中心“上位”

芯片巨头们都看到了这样的需求和趋势,通过收购或者自研拥有了更全面的芯片类型。我们此前介绍过,在数据中心占有优势的英伟达先是在去年十月发布了首代 Blue Field-2。今年 4 月,英伟达首席执行官黄仁勋在 GTC 21 上又宣布英伟达数据中心芯片战略升级为 GPU+CPU+,三类芯片,逐年飞跃,自研 Arm 架构 CPU Grace 也同时亮相。

DPU(Data Processing Unit)作为一个不被大部分人所熟知的芯片类型,其价值是什么?为什么 DPU 能在数据中心“上位”?数据中心的未来为什么是 3U 一体?

DPU 的双重价值

了解 DPU 的价值之前,先解释为什么需要 DPU。黄仁勋此前发布 DPU 时表示,当下的数据中心是由软件定义的,这使得数据中心更加灵活的同时,也产生了巨大的负担,数据中心基础架构的运行能够消耗 20%-30% 的 CPU 核,因此需要一种新的,也就是 DPU。

或者说,以 CPU 为中心的数据中心架构已经不能满足需求,以数据为中心才能更好满足市场和应用需求。英伟达网络事业部亚太区市场开发高级总监宋庆春在本周的一场沟通会中表示:“以前计算规模和数据量没那么大,冯诺依曼架构很好地解决了提高计算性能的问题,随着数据量越来越大,以及 AI 技术的发展,传统的计算模型会造成网络拥塞,继续提升数据中心的性能面临挑战。”

继CPU、GPU 之后,DPU 在数据中心“上位”

以数据为中心的架构,意味着数据在哪计算就在哪。宋庆春指出,以数据为中心的新架构可以解决网络传输中的瓶颈问题或丢包问题,典型通信延时可以从 30-40 微秒降低到 3-4 微秒,有 10 倍的性能提升。

更具体地说,英伟达 DPU 属于 SoC,集三个关键要素于一身:

  • 行业标准的、最高性能及软件可编程的多核 CPU,通常基于广泛的 Arm 架构,与其 SoC 组件密切配合;
  • 高性能网络接口,能以线速或网络中的可用速度解析、处理数据,并高效地将数据传输到 GPU 和 CPU。
  • 各种灵活和可编程的加速引擎,可以卸载 AI、机器学习、安全、电信和存储等应用,并提升性能。

也就是说,DPU 能针对安全、网络、存储、AI、HPC 等业务进行加速,这是 DPU 的第一层价值。而 DPU 的第二层价值在于为以数据为中心的计算架构提供了创新的思路,能够实现以前难以或无法实现的功能。

以前的数据中心所有操作都由 CPU 完成,不仅需要很多 CPU 内核,效率也很低。如果将一些操作,比如 OVS(Open vSwitch,是分布式虚拟多层交换机的开源实现)卸载到 DPU 上运行,不仅可以提升效率,减少 CPU 的利用率,还能实现业务的隔离。

继CPU、GPU 之后,DPU 在数据中心“上位”

宋庆春举了两个例子,在云场景下,英伟达和 VMWare 共同开发了 Monterey 项目,VMWare 把它在 Hypervisor 里的一些功能卸载到 DPU 上,比如防火墙、存储、管理等,这样把业务和基础设施操作完全隔离,实现了高安全性,也实现了裸金属的业务性能。

“这是 VMWare 第一次把他的源代码开放给合作伙伴,共同开发基于 VMWare 企业级的云解决方案。”宋庆春强调。

另一个例子是英伟达与 RedHat 的合作。RedHat 不管在数据中心运行容器还是虚拟化,即便使用所有的 CPU 核来运行虚拟化或容器,也没有办法达到 100G 线速。这时,采用 DPU 运行 Hypervisor、OVS 或容器操作,可以在不消耗任何 CPU 的情况下以实现 100G 甚至 200G 全线速,并将 CPU 资源全部提供给业务。

DPU 能带来多少提升?

“我们最开始选择 DPU,是因为遇到了传统服务器带宽瓶颈,我们想解决网络性能瓶颈的问题,也想降低成本。”Ucloud 技术专家马彦青进表示,“双方最开始都有相同的认知,那就是 DPU 可以实现硬件的卸载,软件和硬件的结合会成为未来的趋势。”

借助 DPU 和与之匹配的软件栈 DOCA,Ucloud 实现了一系列的数据中心性能提升。

马彦青介绍,Ucloud 原先的网络架构使用的是 VPC 网关,作为裸金属服务器之间的 VPC 之间划分的方法,需要很多网关服务器集群来进行管理,集群服务器本身就带来了成本挑战(大概 4-8 台服务器是一个小集群),当跨网关的时候会有带宽瓶颈。有了 DPU 就可以将 VPC 管理集成到 DPU 内部,包括 OVS 包转发以及 GRE 封装都可以通过 DPU 硬件实现,大幅提高转发效率。原来 10G 的网卡升级到 25G 后,性能也大大提升。

这样的改进得到了客户的认可。“有 DPU 的解决方案已经在一些大数据、金融、数据库、容器云等业务中使用,他们的反馈非常好。比如一家做大数据业务的公司,VPC 集群砍掉后,进行 N 对 N 数据计算,带宽和性能都有提升,维护成本也降低了。还有一家金融客户,采用原先的 VPC 架构,需要为他们部署四台服务器,这会造成资源浪费,有了 DPU,几张卡就可以替代四台服务器。”

继CPU、GPU 之后,DPU 在数据中心“上位”

数据中心的存储也受益于 DPU。过去,Ucloud 使用本地盘来存储,缺点是容易出现坏盘或者掉卡,维护非常麻烦,数据丢失想要恢复也非常困难。在新架构里,Ucloud 采用 RSSD 云盘作为后端存储机群,核心是基于 DPU 的 NVMe SNAP 功能,实现了计算和存储的解耦。解耦的优势包括用户可以免装机,实现分钟级交付,运维也减少了机型,磁盘可以按需使用,能够快速实现故障迁移,三副本也更加安全可靠。

DPU 还让数据中心的安全性有显著提升。据介绍,过去数据中心经常使用 CPU 运行 Hyperscan 做深度包检测的政策表达式匹配。“借助 Blue Field-2,我们测试相比软件的 Hyperscan 有 3.5 倍的加速。”马彦青同时介绍,“加解密方面,DPU 卡也可以对 SSL、TLS 进行加解密。IPSec 的算法也可以实现硬件的卸载,把 CPU 的算力释放出来。”

继CPU、GPU 之后,DPU 在数据中心“上位”

Ucloud 的最终极的目标,是实现一张卡实现虚拟化和裸金属架构的统一。他们还在基于 InfiniBand 网络的 DPU,探索如何加速 AI 和高性能计算。

继CPU、GPU 之后,DPU 在数据中心“上位”

DPU 在数据中心上位的关键

数据中心和云服务提供商实现更多探索,发挥 DPU 价值的基础是英伟达 DPU 硬件的持续提升,以及 DOCA 软件栈的不断完善。根据英伟达的路线图,下一代 DPU Blue Field-4 预计在 2023 年发布,将会是业界首个 800G 的 DPU,也会集成 GPU。

继CPU、GPU 之后,DPU 在数据中心“上位”

DOCA 是专为 DPU 开发的软件包,就像 CUDA 对英伟达 GPU 的价值。DOCA 通过软件定义,可以调用 DPU 里的硬件引擎,实现安全、网络、存储等性能的提升。

继CPU、GPU 之后,DPU 在数据中心“上位”

DOCA 的软件栈一层是 Driver 和 Runtime,主要进行调度硬件加速引擎。一层是 DOCA Library,主要是针对业务提供接口。还有 DPU 管理对接上层,比如做编排(Orchestration)和服务部署(Provisioning)的时候使用 DPU 管理进行调用。

继CPU、GPU 之后,DPU 在数据中心“上位”

目前,DOCA 1.0 正式版已经发布。

“我认为,云计算市场是 DPU 很好的突破点,能够解决合作伙伴遇到的瓶颈问题,让他们能够更加高效、安全、低时延的提供服务。”宋庆春表示,“云原生超级计算机也应该会很快应用到 DPU 市场。因为随着超级计算的发展、算力已经变成了服务,如何提供一种安全的算力服务,DPU 在这里面就会扮演非常的角色。最终,DPU 也会在基础设施、数据中心、通信等领域成为一个核心部件。

继CPU、GPU 之后,DPU 在数据中心“上位”

当然,DPU 的出现并非要替代 CPU 和 GPU,而是更好地满足数据中心市场的需求。“3U(CPU、GPU、DPU)一体的架构将会让管理程序、调度程序都会变得非常容易。3U 一体是要实现从边缘到核心数据中心,统一架构、统一管理、统一调度。”

想要通过 3U 一体满足数据中心等需求的不止英伟达,英特尔本周也发布了与 DPU 定位类似的 IPU(Infrastructure Processing Unit),趋势已经非常明显,最终会带来哪些变革?

本文转载自:雷锋网,版权归原作者所有,本博客仅以学习目的的传播渠道,不作版权和内容观点阐述,转载时根据场景需要有所改动。