首页 > 头条 >

CPU和CPU，是如何通信的？

2025-09-29 11:17:01 来源：证券之星阅读量：8315

公众号记得加星标，第一时间看推送不会错过。

由于人工智能的火热，在一个系统中集成CPU和GPU已经成为了常态。那么CPU和GPU之间是如何通信的？我们来看一下以下科普。

存储系统到GPU显存的数据流动

名词解释:

NVMe SSD: Non-Volatile Memory Express，即非易失性内存主机控制器接口规范 NVMe 是一种存储协议，基于该协议的SSD固态硬盘，能大幅提升读写性能。
Host Memory:指主机内存，是计算机中用于存储数据和程序，供 CPU 直接访问和处理的硬件组件。
System Memory:即系统内存，是计算机系统运行时用于临时存储数据和程序指令的硬件。
DMA:Direct Memory Access 即直接内存访问，是一种让外设直接与内存进行数据传输，而无需 CPU 干预的技术。
PCIe:Peripheral Component Interconnect Express，是一种高速串行计算机扩展总线标准，采用点对点串行连接，数据传输速率高、带宽大且可扩展性强。
PCIe Switch:即 PCIe 交换机，用于扩展接口数量，可让多个设备共享 PCIe 总线带宽，实现数据传输。
Bounce buffer:是一种数据缓冲区，用于在不同地址空间或不同设备之间临时存储和传输数据，以解决数据传输不匹配问题。
NIC:Network Interface Card 是计算机与网络连接的硬件设备，用于实现数据的发送与接收、网络信号的调制解调等。
Shared Pinned Memory :共享固定内存，能在不同应用或进程间共享数据，且固定内存地址减少数据拷贝，提高数据访问效率和系统性能。
IB:InfiniBand 是一种高速网络互联技术，用于高性能计算等领域，能提供低延迟、高带宽的数据传输，实现节点间快速通信。
HPC:High Performance Computing 高性能计算，通过集群等技术整合计算资源，快速处理大规模复杂计算任务，特点是计算能力强、并行处理能力高、数据传输速度快。

1.1 GPU与存储系统的通信

经过系统内存中转的GPU数据加载流程，涉及两次数据拷贝。

第一次拷贝:存储系统系统内存(Host Memory)

原因:GPU无法直接访问存储设备，必须通过CPU和系统内存中转。

技术实现:使用 DMA 技术，通过PCl-e总线，由存储控制器直接将数据从NVMe 拷贝到系统内存，无需CPU干预。

第二次拷贝:系统内存 GPU显存

原因:GPU只能访问自己的显存，需通过PCl-e总线从系统内存加载数据。

技术实现:使用 CUDA的cudaMemcpy拷贝函数，通过PCIe总线将系统内存中的数据，拷贝到GPU显存中。

问题:数据经过系统内存中转，明显存在冗余的数据拷贝过程。

1.2 优化版，GPUDirect Storage

GPUDirect Storage 是什么？

Storage 是GPUDirect 系列技术之一，GPUDirect 经过多年的发展，如今已经包含四种技术，分别是: 1)GPUDirect Storage 2)GPUDirect RDMA 3)GPUDirect P2P (peer to peer) 4)GPUDirect for Video

GPUDirect Storage 功能和优势？

GPUDirect Storage 提供本地存储或者远程存储 (NVMe over Fabric) 与GPU显存的直接通路，减少不必要的系统拷贝。它可应用网卡NIC和存储系统附近的DMA引擎，直接向GPU显存写入/读取数据。这种技术减少了CPU和系统内存的瓶颈，显著提升了数据密集型应用的性能。

2. GPU和GPU之间的数据流动

2.1. 有共享内存参与的GPU-GPU间数据流动:

1)GPU0 通过PCle将显存中的数据，拷贝到系统内存中的固定共享内存。

2)从共享内存通过PCIe总线，将数据拷贝到GPU1显存中。

利用此方案将数据从GPU0传送到GPU1，整个过程发生多次数据拷贝，直观上有些是冗余拷贝。

2.2. 优化版GPUDirect P2P

GPUDirect P2P 是什么？

P2P是一种允许GPU 之间直接进行数据传输，绕过 CPU提高数据传输效率，加速大规模数据处理和并行计算的一种技术。使用CUDA Toolkit 和driver 就可以支持原生支持P2P技术，进而实现GPU之间直接通信。

GPUDirect P2P 功能和优势？

P2P支持GPU之间通过memory fabric 直接进行数据拷贝。如果两个GPU连接到同一PCIe总线，P2P允许每个GPU直接访问自己与对方的GPU显存，而不用通过CPU辅助。即将数据从源GPU拷贝到目标GPU不需要系统内存缓存中间数据。此方法相比与之前方案，在执行相同任务时数据拷贝动作减少一半。

可优化问题:

P2P技术虽然实现了GPU到GPU之间的直接数据拷贝，但是多个GPU通过PCIe总线直接与CPU相连，随着AI对HPC要求越来越高，PCIe的通信方式，逐渐成为数据流动的瓶颈。

PCl-e 通信带宽表格:全双工模式下，采用 128b/130b 编码。

PCI - e 版本

传输速率

单通道带宽

双通道带宽

四通道带宽

八通道带宽

十六通道

带宽

3.0

8 GT/s

0.98 GB/s

1.97 GB/s

3.94 GB/s

7.88 GB/s

15.75 GB/s

4.0

16 GT/s

1.97 GB/s

3.94 GB/s

7.88 GB/s

15.75 GB/s

31.51 GB/s

5.0

32 GT/s

3.94 GB/s

7.88 GB/s

15.75 GB/s

31.51 GB/s

63.02 GB/s

6.0

64 GT/s

7.88 GB/s

15.75 GB/s

31.51 GB/s

63.02 GB/s

2.3. 高配版NVLink+NVSwitch

什么是NVLink:

NVLink是一种高速、高带宽的互连技术，用于连接多个GPU 之间或连接 GPU 与其他设备之间的通信技术。

NVLink 功能和优势:

实现设备间的高速数据传输，支持 GPU 之间点对点直接通信和数据共享，可进行大规模并行计算。优势在于能提供极高的带宽，比如 NVIDIA A100 Tensor Core GPU 通过 NVLink 互联可达到 600GB/s 的双向带宽，远高于传统 PCIe 总线。同时具有极低的延迟，能让多 GPU 协作更紧密，显著提升计算性能。

NVLink 解决了单节点小规模计算设备之间的高效通信，比如8个GPU之间通过混合立方网格拓扑结构相连，保证了每两两个GPU之间的传输效率是一致的。

NVLink版本和带宽:

问题:当GPU个数大于NVLink最大连接数量时，这种的拓扑结构就cover不住了。大规模多GPU或者多节点之间的互联通信，需要NVSwitch上点硬科技。

NVSwitch 是什么?

NVSwitch 是NVIDIA 推出的一种高速互联芯片，专为多GPU系统设计，用以简化多GPU间实现全连接的拓扑设计，实现 GPU 之间的高效通信。它是 NVLink技术的扩展，旨在解决大规模多 GPU 系统中的通信瓶颈问题。

NVSwitch 功能和优势？

类似于PCIe使用PCIe Switch用于拓扑的扩展，Nvidia使用NVSwitch实现了NVLink的全连接。NVSwitch作为节点交换架构，支持单节点中16个GPU全互联，并且支持8对GPU同时通信。

高带宽:每条 NVLink的带宽可达300 GB/s ，远高于PCIe 的带宽(PCIe 4. 0 ×16的带宽为32GB/S)。全互联拓扑:NVSwitch 支持全互联拓扑，每个 GPU 都可以直接与其他 GPU通信，避免了通信瓶颈。可扩展性:NVSwitch 可以支持大规模多 GPU系统，并且随着 GPU 数量的增加，通信性能不会显著下降。

NVSwitch版本和带宽:

3.GPU之间的跨机通信

3.1 经典的跨机通信

如果涉及GPU的跨机通信，不支持RDMA的方法需要借助系统内存，才能完成数据传输，具体有5个步骤:

在源节点中把数据从源GPU拷贝到host-pinned系统内存中。
在源节点中把数据从host-pinned系统内存拷贝到网卡驱动缓冲区
通过网络传输把数据从源节点传送到目标节点的网卡驱动缓冲区
在目标节点将数据从网卡驱动缓冲区传送到host-pinned系统内存
在目标节点通过PCIe总线将数据从host-pinned系统内存拷贝到目标GPU显存

PS: 直接从主机内存中读取或写入数据，而不需要 CPU的干预。长被用于频繁的 CPU-GPU数据传输)

3.2 GPUDirect RDMA 优化

GPUDirect RDMA 是什么？

GPUDirect 系列技术之一，该技术可减少在host-pinned系统内存中的中间数据拷贝，可极大提升通信效率。如果有GPUDirect RDMA加持，上述5个步骤可简化至一步完成。

GPUDirect RDMA 功能和优势？

GPUDirect RDMA 支持GPU间快速跨机通信，可使外围PCIe设备直接访问GPU显存。它能减轻CPU负载，同时也能减少不必要的通过系统内存进行的数据拷贝。

实现方式: 1)InfiniBand 是最早实现的RDMA协议，广泛应用于高性能计算中。2)RoCE (RDMA over Converged Ethernet) 是一种允许通过以太网进行 RDMA的网络协议。3)iWARP允许在TCP上执行RDMA的网络协议。

4. 总结

通过 GPUDirect Storage 技术实现了存储设备和GPU显存的直接访问，数据加载效率大大提升。通过GPUDirect P2P技术实现了GPU之间互联互通，可以快速访问。NVLink 用于改善PCIe带宽瓶颈问题，NVSwitch 解决多个GPU设备拓扑扩展问题。GPUDirect RDMA 解决多节点GPU之间通信问题。

Q/A:在GPUDirect 技术中 P2P和 RDMA都是实现GPU之间的高效通信，两者之间的区别和联系?

在实际系统中，两者可结合使用以最大化性能:

单节点内:通过 NVLink + GPUDirect P2P 实现 GPU 间高速通信。

跨节点间:通过 InfiniBand + GPUDirect RDMA 实现低延迟数据传输。

例如，在训练千亿参数模型时，节点内8个GPU 使用 NVLink P2P同步梯度；节点间通过 RDMA将聚合后的梯度广播到其他服务器。

所以:GPUDirect P2P 是单节点多 GPU 通信的基石，依赖高速直连硬件优化本地协作。GPUDirect RDMA 是跨节点 GPU 通信的核心，依赖RDMA网络实现超低延迟的远程数据直达。两者共同支撑了从单机到超大规模集群的GPU高效协同，是AI训练、HPC等领域的关键技术。

今天是《半导体行业观察》为您分享的第4179期内容，欢迎关注。

加星标第一时间看推送，小号防走丢

求推荐

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

冯飞在海口暗访检查安全生产工作

原题:冯飞在海口暗访检查安全生产工作时强调压紧压实责任守牢安全底线全力营造更加平安有序的假日环境国庆中秋假期将至，省委书记冯飞9月28日全程以“四不两直”方式，深入海口市建...

2025-09-29 10:02:01

前8个月和8月份单月利润同比增速双双转正工业经济释放向好积极

9月27日，国家统计局发布数据显示，前8个月，全国规模以上工业企业实现利润总额46929.7亿元，同比增长0.9%。从月度来看，8月份规模以上工业企业利润实现两位数的同比增长，由7月份...

2025-09-29 08:26:27

万亿巨头，突然起飞了！

上周末，阿里巴巴披露最新财报，一度引发市场热议。其中，公司在AI与即时零售赛道的布局及前景，是市场关注的核心要点。对此，我们已于价投圈做了详细解读，圈友们看过的话，相信对于此次财报...

2025-09-29 04:00:23

中证A500ETF一周年，基金规模再上2000亿元A500E

2025年9月23日，是中证A500指数正式发布一周年。本周中证A500指数上涨1.19%，截至9月26日收盘，报5497.73点。本周日均平均成交额为8994.41亿元，单日成交额环...

2025-09-29 03:14:30

比亚迪第二代秦PLUS上新6.98万元起

目前秦PLUS累销超过150万辆，蝉联2023、2024年度家轿销量冠军，代表中国品牌打破合资垄断，一举改写市场格局，也让中国用户为开中国家轿而自豪，得到了网友“有路就有秦，有家就有秦...

2025-09-29 02:33:48

杜邦8482;Tyvek174;医疗包装亮相2025Medt

作为医疗器械全产业链的重要创新枢纽，2025国际医疗器械设计与制造技术展览会(Medtec)于9月24日至26日在上海成功举行。杜邦#8482;Tyvek#174;特卫强#174;医疗...

2025-09-29 00:35:36

潮涌漓江向“绿”行——2025“低碳中国行”暨气候行动周活动

由南方电网公司联合生态环境部宣传教育中心举办的2025“低碳中国行”暨气候行动周系列活动于9月20日在广西桂林启动。本次桂林站活动以“电护青绿低碳同行”为主题，深入漓江核心景区近零碳示...

2025-09-28 23:59:34

专访硕成科技董事长曾庆明：深耕电子材料领域，打造百年企业

南方财经记者杨期鑫庞成、视频拍摄剪辑记者朱治宣实习生姚文琪吴佳钒韶关报道 2024年以来，AI科技革命席卷全球，推动算力、高速网络通信、智能驾驶等下游领域高速发展，PCB行业进入新一...

2025-09-28 23:19:34

CPU和CPU，是如何通信的？

微信扫一扫：分享

冯飞在海口暗访检查安全生产工作

前8个月和8月份单月利润同比增速双双转正工业经济释放向好积极

万亿巨头，突然起飞了！

中证A500ETF一周年，基金规模再上2000亿元A500E

比亚迪第二代秦PLUS上新6.98万元起

杜邦8482;Tyvek174;医疗包装亮相2025Medt

潮涌漓江向“绿”行——2025“低碳中国行”暨气候行动周活动

专访硕成科技董事长曾庆明：深耕电子材料领域，打造百年企业