Double Buffer：Cube 在算的时候，DMA 在搬下一批数据

张

张建站

2026/5/26 17:08:25

10分钟阅读

本文基于昇腾CANN和昇腾NPU围绕 Double Buffer 双缓冲技术展开。Tiling 把大矩阵切成小块轮流上场——但每次等 DMA 搬完数据再算Cube Unit 有一半时间在发呆。Double Buffer 解决的就是这个问题L1 上放两块 Buffer——Buffer 0 在算的时候DMA 已经偷偷把下一批数据搬到 Buffer 1 了。算完立刻切到 Buffer 1——零等待。假设 DMA 搬运一个 Tile 要 10μsCube 算一个 Tile 要 15μs。单缓冲下每步要等 101525μs。双缓冲下 DMA 和 Cube 并行每步只要 max(10, 15)15μs——快了 40%。双缓冲的 Pipeline 机制单缓冲时间线 K-step 0: [DMA:10μs][Cube:15μs] K-step 1: [DMA:10μs][Cube:15μs] 总时间50μs 双缓冲时间线 K-step 0: [DMA_A0:10μs] [Cube:15μs] K-step 1: [DMA_A1:10μs] ← DMA_A1 和 Cube_A0 重叠 [Cube:15μs] ← Cube_A1 和 DMA_A2 重叠 K-step 2: [DMA_A2:10μs] [Cube:15μs] 总时间10 15×3 55μs → 但 K-step 0 的 DMA 只做一次实际流水建立后每步 max(10, 15)15μs → 3步45μs vs 单缓冲75μs双缓冲在硬件上是两条独立通道DMA 引擎搬数据走 DDR↔L1 的专用总线Cube Unit算 GEMM 走 L1 内部的矩阵乘法通路。两者互不抢资源。唯一的约束是DMA 不能写 Cube 正在读的 Buffer——所以在 L1 上必须分配两个独立的 Buffer 区域。Tensor搬运和 DMA 的配合DMADirect Memory Access是 NPU 上专门的硬件引擎负责 DDR↔L1 的数据搬运。CPU 不给 DMA 发指令——Scalar Unit 在 Kernel 开头配置好 DMA 描述符源地址、目标地址、长度DMA 自己按描述符工作。双缓冲下Scalar Unit 在 Kernel 开头配置两个 DMA 描述符链Buffer 0 的搬运和 Buffer 1 的搬运交替启动。Kernel 的循环里只做两件事等当前 Buffer 算完切指针到另一个 Buffer。// Ascend C 双缓冲的简化实现classDoubleBufferedGemm:publicAscendC::Kernel{__aicore__voidProcess()override{LocalTensorfp16a_buf[2],b_buf[2],c_buf[2];// 分配双倍 Bufferfor(inti0;i2;i){LocalAlloc(a_buf[i],M_TILE*K_TILE);LocalAlloc(b_buf[i],K_TILE*N_TILE);LocalAlloc(c_buf[i],M_TILE*N_TILE);}// 启动第一批 DMA——先搬 A0、B0DataCopyAsync(a_buf[0],gm_a[0],stream_dma);DataCopyAsync(b_buf[0],gm_b[0],stream_dma);intcur0,next1;for(intk0;kK;kK_TILE){// 启动下一批 DMA——搬 A1、B1DataCopyAsync(a_buf[next],gm_a[kK_TILE],stream_dma);DataCopyAsync(b_buf[next],gm_b[kK_TILE],stream_dma);// 等当前批次 DMA 完成WaitStream(stream_dma);// Cube 算当前 Buffer——此时 DMA 正在搬 next BufferMatMul(c_buf[cur],a_buf[cur],b_buf[cur]);// 切 Buffercur1-cur;// 0↔1next1-next;}}};Transformer 推理中的双缓冲场景LLaMA-7B 推理中GEMM 的 K 维度是 4096。K_TILE32 时需要 128 个 K-step。双缓冲下128 个 K-step 的 DMA 和 Cube 完全重叠——DMA 时间被 Cube 计算时间完全隐藏。实际收益一个 4096×4096 的 GEMM 从 420μs单缓冲降到 280μs双缓冲——省 33%。参考仓库Runtime 运行时Ascend C 算子编程语言catlass 算子模板库CANN 学习中心

8051单片机16位SFR访问原理与安全实践

1. 16位特殊功能寄存器（SFR）的基础概念在8051单片机开发中，特殊功能寄存器（Special Function Register，简称SFR）是CPU与外围设备交互的关键接口。标准的8位SFR使用sfr关键字定义，而16位SFR则需要…...

2026/5/26 17:08:26 阅读更多 →

2026-05-25：删除重复字符后的字典序最小字符串。用go语言，给定一个只包含小写字母的字符串 s。你可以重复执行以下操作任意次（也可以不执行）：在当前字符串中，挑选一个已经至少出现两次的字母，然

2026-05-25：删除重复字符后的字典序最小字符串。用go语言，给定一个只包含小写字母的字符串 s。你可以重复执行以下操作任意次（也可以不执行）：在当前字符串中，挑选一个已经至少出现两次的字母，然…...

2026/5/26 9:17:57 阅读更多 →

ARM SME指令集：ST1H与ST1W存储指令详解

1. ARM SME指令集概述在现代处理器架构中，向量存储指令是高性能计算的关键组成部分。ARM的SME（Scalable Matrix Extension）指令集通过ST1H和ST1W等指令，实现了高效的半字和字存储操作。这些指令利用向量寄存器和谓词寄存器&#x…...

2026/5/26 12:21:01 阅读更多 →

8个必备的数据采集工具详解，低代码爬虫～

网络爬虫是一种常见的数据采集技术，你可以从网页、 APP上抓取任何想要的公开数据，当然需要在合法前提下。爬虫使用场景也很多，比如： 搜索引擎机器人爬行网站，分析其内容，然后对其进行排名，比…...

2026/5/26 16:48:42 阅读更多 →

【架构设计】微服务架构设计模式：从理论到实践

【架构设计】微服务架构设计模式：从理论到实践引言微服务架构已经成为现代软件开发的主流架构风格之一，它将大型单体应用拆分为多个小型、自治的服务，每个服务负责特定的业务功能。然而，微服务架构虽然带来了灵活性、可扩展性和…...

2026/5/26 16:48:47 阅读更多 →

小模型爆发出惊人能量！斯坦福开源框架AgentFlow如何实现复杂任务中的可靠工具使用？

本文介绍了斯坦福大学开源的模块化智能体框架AgentFlow，它通过独特的架构设计和训练方法，在工具集成和规划能力上取得了突破性进展。AgentFlow以Qwen-2.5-7B-Instruct为基础，在10个基准测试中表现突出，超越了大50倍的模型和GPT-4o…...

2026/5/26 16:48:45 阅读更多 →

ES 模块：JavaScript 模块化的标准方案

ES 模块：JavaScript 模块化的标准方案什么是 ES 模块？ ES 模块（ES Modules，简称 ESM）是 ECMAScript 2015（ES6）引入的官方模块化规范。 ES 模块 vs CommonJS 特性CommonJSES Modules加载方式同步…...

2026/5/26 16:48:43 阅读更多 →

更多精彩文章