从H.T.Kung的论文到Google TPU：Systolic Array（脉动阵列）40年演进史与核心思想

张

张建站

2026/6/23 4:47:58

10分钟阅读

从H.T.Kung的论文到Google TPU：Systolic Array（脉动阵列）40年演进史与核心思想

从脉动阵列到TPU一场跨越40年的计算架构革命1982年卡内基梅隆大学教授H.T.Kung在论文《Why Systolic Architecture?》中提出了一个颠覆性的设计理念——通过规则化的数据流动实现计算与I/O的完美平衡。谁曾想到这个当时看似学术性极强的构想会在35年后成为Google TPU的核心架构支撑起全球人工智能计算的半壁江山。这场技术思想的传承与进化堪称计算机体系结构史上最精彩的篇章之一。1. 脉动阵列的诞生解决计算与I/O的根本矛盾在摩尔定律如日中天的1980年代H.T.Kung却敏锐地发现了一个被多数人忽视的关键瓶颈计算单元的速度提升远快于内存带宽的增长。这种不平衡导致了一个尴尬局面——处理器大部分时间都在等待数据而非实际计算。脉动阵列(Systolic Array)的提出正是为了从根本上解决这一矛盾。脉动架构三大设计哲学简单规则的设计通过完全相同的处理单元(PE)重复排列大幅降低设计复杂度计算与通信的融合数据像血液在血管中脉动一样在PE间规律流动并同步处理I/O与计算的平衡每个数据元素进入阵列后会被多次复用极大降低对外部存储的访问需求经典案例矩阵乘法在传统架构中需要O(n³)次内存访问而在脉动阵列中仅需O(n)次边界I/O下表对比了传统处理器与脉动架构的关键差异特性传统处理器脉动阵列计算单元复杂多功能ALU简单固定功能PE数据流随机访问为主规律单向流动I/O需求随计算线性增长仅边界交互扩展性受内存墙限制近乎线性扩展2. 从理论到实践脉动架构的工程化演进尽管学术价值显著脉动阵列在提出后的前20年却鲜有大规模商业应用。这背后有着深刻的工程现实专用硬件的高成本与通用计算的灵活性需求形成了难以调和的矛盾。转折点出现在2010年代深度学习的爆发性增长创造了对特定计算模式的刚性需求。关键突破点半导体工艺进步28nm以下工艺使大规模PE阵列的集成成为可能计算范式固化CNN等模型90%以上的运算可归结为矩阵乘法能效比需求云计算场景对每瓦特算力的追求达到极致// 典型脉动阵列的PE操作伪代码 for each clock cycle: if data_available(left, top): // 从相邻PE接收数据 left_val read(left) top_val read(top) // 执行乘累加操作 partial_sum local_reg left_val * top_val // 向相邻PE传递数据 write(right, left_val) write(bottom, top_val) write(accumulator, partial_sum)Google TPUv1的设计完美诠释了这些原则。其256x256的MAC阵列中每个周期可执行65,536次乘加运算而仅需通过边界单元与外部交换数据。实测显示在相同工艺下TPU的能效比达到同期GPU的10倍以上。3. TPU中的脉动阵列创新经典思想的现代演绎Google工程师在TPU实现中对原始脉动架构进行了多项关键改进使其更适配现代AI工作负载数据流优化权重固定(Weight Stationary)将滤波器权重预加载到PE中避免重复读取输入广播(Input Broadcasting)激活值水平流动部分和垂直累积双缓冲设计隐藏权重加载延迟实现计算与数据传输的流水线并行硬件实现技巧数据重格式化通过专用硬件将卷积转换为Toeplitz矩阵乘法边界处理采用环形缓冲减少无效PE闲置精度优化8位整数量化配合32位累加器平衡精度与效率下表展示了TPUv1中脉动阵列的关键参数参数规格设计考量阵列规模256x256面积与功耗的平衡时钟频率700MHz同步时钟树可行性数据位宽8bit输入/32bit累加神经网络精度需求带宽配置权重30GB/s激活167GB/s数据复用特性差异4. 脉动架构的当代价值与未来挑战在AI芯片百花齐放的今天脉动阵列依然保持着独特的竞争优势。Tesla Dojo、Groq LPU等最新处理器都采用了类似的架构理念。但伴随技术演进这一经典设计也面临着新的考验持续优势领域高规则性计算矩阵变换、密码学确定性延迟应用自动驾驶、实时推理能效敏感场景边缘设备、移动端亟待突破的瓶颈稀疏计算支持现有架构难以有效跳过零值运算动态形状适应固定尺寸阵列处理可变尺寸输入效率低下多模态融合难以高效支持注意力机制等新兴算法在项目实践中我们发现脉动阵列最适合部署在具有以下特征的工作负载上计算密度高且可预测数据复用机会明确对延迟一致性要求严格那些需要频繁条件分支或高度稀疏的计算任务则可能需要考虑其他架构方案。

WPS-Zotero插件：5分钟实现跨平台文献管理的终极解决方案

WPS-Zotero插件：5分钟实现跨平台文献管理的终极解决方案【免费下载链接】WPS-Zotero An add-on for WPS Writer to integrate with Zotero. 项目地址: https://gitcode.com/gh_mirrors/wp/WPS-Zotero 还在为Windows和Linux之间的文献协作而烦恼吗&#xff1…...

2026/6/22 23:22:00 阅读更多 →

Rust的闭包捕获列表与move关键字在跨线程发送中的所有权语义明确化

Rust的闭包捕获列表与move关键字在跨线程发送中的所有权语义明确化 Rust作为一门以安全性和并发性为核心的系统编程语言，其所有权机制和闭包设计在多线程场景下尤为重要。闭包捕获列表与move关键字的结合，为跨线程数据传递提供了清晰的所有权语义&#…...

2026/6/21 21:21:56 阅读更多 →

如何用bili2text一键将B站视频转为文字稿：完整教程指南

如何用bili2text一键将B站视频转为文字稿：完整教程指南【免费下载链接】bili2text Bilibili视频转文字，一步到位，输入链接即可使用项目地址: https://gitcode.com/gh_mirrors/bi/bili2text 你是否经常在B站学习知识，却苦…...

2026/6/18 17:57:47 阅读更多 →

PyGAD实战指南：5大工业级遗传算法应用与避坑手册

1. 为什么是PyGAD而不是自己手写遗传算法？在Python生态里，提到遗传算法（Genetic Algorithm），很多人第一反应是“得从零开始搭轮子”：初始化种群、定义适应度函数、写选择/交叉/变异逻辑、控制迭代终止条件……...

2026/6/22 23:49:27 阅读更多 →

emWin三大核心控件实战：进度条、单选按钮与滚动条开发指南

1. 项目概述：深入emWin三大核心控件的实战应用在嵌入式图形界面开发领域，SEGGER的emWin以其高效、稳定和丰富的控件库而著称。对于许多从单片机裸机开发转向带屏交互的工程师来说，如何高效、正确地使用这些控件，往往是项目从“能跑…...

2026/6/22 3:00:39 阅读更多 →

英雄联盟终极效率工具：League Akari 完全指南

英雄联盟终极效率工具：League Akari 完全指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一款基于官方LCU API开…...

2026/6/22 5:43:39 阅读更多 →

Transformer 中的高效推理：推理时注意力压缩

Transformer 中的高效推理：推理时注意力压缩作者: Hao Sun, Yuxuan Li, Wei Lu 来源: https://arxiv.org/html/2606.20529v1摘要大型语言模型（LLMs）的部署成本高昂，主要受限于推理阶段的内存与计算开销。本文提出了一种推理时注…...

2026/6/23 0:01:35 阅读更多 →