神经形态计算与人形机器人融合：基于STDP的脉冲神经网络实现视觉注意学习

张

张建站

2026/5/27 14:12:42

10分钟阅读

1. 项目概述当神经形态芯片“遇见”人形机器人如果你和我一样在机器人学和神经计算这两个领域的交叉路口徘徊过那你一定思考过这样一个问题我们能否造出一个机器人它的“大脑”不是由一行行冰冷的代码和预设的规则驱动而是像生物一样通过脉冲和突触连接的变化在真实世界的交互中“学会”看、学会注意、甚至学会思考这听起来像是科幻小说的情节但一群来自曼彻斯特大学和普利茅斯大学的研究者真的把这件事做成了。他们让一个名为iCub的精致人形机器人通过一块名为SpiNNaker的神经形态计算芯片学会了在杂乱的场景中专注地“看”向特定的物体。这不仅仅是又一个“机器人学会XX任务”的新闻。它的核心是将两种前沿且充满挑战的技术进行了深度整合一边是模拟生物大脑信息处理方式的脉冲神经网络另一边是拥有53个自由度、能像婴儿一样探索世界的复杂人形机器人平台。传统的机器人视觉系统往往依赖于预先训练好的深度神经网络模型它们性能强大但通常是个“黑箱”功耗高且难以在运行中实时适应新变化。而这项研究尝试的是一条更“生物”的路径利用脉冲的精确时序和脉冲时序依赖可塑性这种仿生的学习规则让机器人的视觉注意系统能够在线、实时地调整自己从“漫无目的”到“精准聚焦”。我之所以对这个项目特别着迷是因为它戳中了当前人工智能和机器人学的一个核心痛点我们如何让机器智能更高效、更可解释、更适应非结构化的动态环境神经形态计算给出的答案是从硬件到算法的全面仿生。SpiNNaker芯片就是为了大规模、实时模拟SNN而生的专用硬件而iCub则提供了一个完美的、具身化的测试平台。这项实践向我们证明这种整合不再是纸上谈兵的概念验证而是能够解决“物体特异性注意”这种真实、具象任务的可行方案。无论你是对类脑计算硬件感兴趣的工程师还是研究机器人感知与学习的算法专家亦或是想了解前沿交叉领域的爱好者这个案例都像一座桥梁连接了神经科学的灵感、计算硬件的创新与机器人技术的落地。2. 核心架构解析从生物视觉通路到可计算的网络模型要理解这个系统是如何工作的我们不能只停留在“机器人学会了看”这个层面必须深入其构建的神经网络架构。研究团队的设计并非天马行空而是紧密借鉴了哺乳动物尤其是灵长类视觉注意系统的生物学基础并将其抽象、简化为一个可在大规模神经形态硬件上高效运行的数学模型。2.1 生物启发的视觉注意通路拆解整个网络模型可以清晰地分为两条处理通路自下而上的数据驱动通路和自上而下的目标驱动通路。这模仿了人类视觉系统处理信息的基本方式。自下而上通路负责从原始像素中提取并组合特征可以理解为“看到了什么”。它模拟了从视网膜到高级视觉皮层的层级结构输入层模拟视网膜接收来自机器人摄像头的视觉信号。研究中使用了动态视觉传感器一种对光强变化敏感的仿生摄像头或经过预处理的帧式摄像头数据并将其转换为脉冲事件。V1层模拟初级视觉皮层。这里的神经元是特征检测器每个神经元只对特定朝向如0°、45°、90°、135°的线条或边缘敏感。研究中使用的是带有高斯感受野的卷积滤波器这意味着每个V1神经元只关注输入图像中一个小区域例如5x5或10x10的像素块并对其特定朝向的线条做出强烈反应。这种设计让网络具备了最基础的形状感知能力。V2层模拟次级视觉皮层。V2神经元接收来自V1的输入通过简单的池化操作将局部的小特征如短线段组合成更大的特征如角点、长线。这一层还引入了局部侧向抑制机制形成一种“软”的胜者通吃竞争。简单来说在同一片视觉区域内激活最强的特征会抑制周围较弱的特征这有助于突出最显著的目标。V4层模拟视觉第四区。这一层负责将V2传来的特征“组装”成完整的物体形状通常是有闭合轮廓的物体。通过进一步的空间子采样例如每2x2的V2区域对应一个V4神经元V4层形成了对场景中潜在物体的表征。自上而下通路则负责注入任务目标或先验知识可以理解为“想看到什么”。它模拟了前额叶皮层对视觉处理的调控前额叶皮层这是动机和目标的中心。在实验中PFC被设置为对特定朝向例如垂直物体产生偏好性偏置对另一朝向例如水平物体产生抑制性偏置。这种偏置是持续、稳定的为学习提供了方向性的指导。额眼区这是一个更精细的调控层。它接收来自V2层的输入动态地计算一个显著性地图——即图像中哪些位置在近期更活跃、更“有趣”。然后FEF将这张显著性地图与PFC的目标偏置结合生成一个针对V4层的、空间位置特异性的增强或抑制信号。这好比你的大脑在寻找钥匙时不仅知道“钥匙是金属的”PFC目标还会根据余光中闪过的金属反光FEF显著性快速锁定位置。这两条通路的输出最终汇聚到外侧顶内沟层。LIP层被设计为一个硬性的胜者通吃网络它接收所有朝向的V4输入并通过强烈的相互抑制最终只让激活最强的那个位置对应视觉场景中的一个点“胜出”。这个胜出的位置就是整个网络在当前时刻选择的“注意焦点”其坐标被直接发送给iCub机器人控制它的眼睛摄像头转动凝视那个位置。注意这个模型做了重要的工程简化。例如它没有模拟基底核等负责动作选择和解抑制的复杂脑区而是直接用LIP的输出驱动凝视。同时为了简化分析FEF到LIP的直接通路也被暂时省略以限制自上而下偏置对最终目标选择的过度影响。这些简化在保证核心功能可实现的前提下大大降低了系统的复杂性。2.2 网络实现的核心计算单元LIF神经元与STDP规则模型中的所有“神经元”都采用泄漏积分点火模型。你可以把它想象成一个会漏水的桶输入脉冲电流像水流一样注入桶中桶内的水位膜电位随之上升同时桶底有个小洞在持续漏水膜电位衰减。当水位超过一个阈值时桶就会瞬间倒空神经元发放一个脉冲同时膜电位重置然后继续重复这个过程。这个模型平衡了生物真实性和计算效率是SNN模拟中最常用的神经元模型之一。学习的核心机制是脉冲时序依赖可塑性。STDP规则极其巧妙它只关注一对相连的神经元前后发放脉冲的精确时间差如果前神经元脉冲先于后神经元脉冲因果序则增强它们之间连接的强度。这符合“一起发放的神经元连接在一起”的赫布理论意味着前神经元的激活是导致后神经元激活的原因这种因果关系值得强化。如果后神经元脉冲先于前神经元脉冲反因果序则减弱连接强度。这意味着后神经元的激活可能并非由前神经元引起这种连接可能是无用的甚至有害的。在本次实验中研究者在V2到V4的连接上启用了STDP。这是整个学习过程的关键设计。为什么选这里因为V2层编码了物体的中级特征如朝向而V4层编码了完整的物体表征。V2到V4的连接强度直接决定了“具备某种特征的视觉输入”能在多大程度上激活“对应物体的整体表征”。通过STDP网络可以学会当PFC/FEF通路提示“注意垂直物体”时那些对垂直边缘敏感的V2神经元如果其活动能成功引发对垂直物体表征的V4神经元发放脉冲那么它们之间的连接就会被增强。经过多次重复网络对“垂直物体”的注意就会变得越来越敏锐和快速。3. 系统整合与工程实现打通从脉冲到动作的“最后一公里”将抽象的神经网络模型在真实的机器人身上跑起来是一个充满挑战的工程问题。这涉及到异构硬件之间的通信、实时性保障以及传感器数据的预处理。3.1 硬件平台SpiNNaker与iCub的“联姻”SpiNNaker不是一个传统的CPU或GPU。它是一个专为SNN模拟设计的大规模并行多核系统。单个SpiNNaker芯片包含18个ARM处理器核心而一个系统可以由成千上万个这样的芯片互连而成。它的设计哲学是“事件驱动”只有神经元发放脉冲时才会产生通信事件。这种异步、并行的通信方式极大地模仿了生物大脑的高效与低功耗特性非常适合实时处理来自传感器如摄像头的源源不断的事件流。iCub则是一个开源的、仿儿童设计的人形机器人研究平台。它拥有高度拟人的头-眼-颈-臂-手系统配备了视觉、听觉、触觉等多种传感器。在这个项目中主要利用其头部摄像头和运动控制系统来实现“看”和“指向”的行为。连接这两者的“桥梁”是一个基于EIEIO协议的通信接口。EIEIO是一种为神经形态设备设计的标准化事件通信协议。工作流程如下iCub的摄像头捕获原始图像。在主机PC上通过YARP中间件和OpenCV等库对图像进行预处理如饱和度转换、目标跟踪、边界框提取、下采样最终生成一个代表“ON”白色像素位置的脉冲事件矩阵。一个虚拟的EIEIO设备模块将这些脉冲事件打包成UDP数据包通过以太网发送给SpiNNaker系统。SpiNNaker运行SNN模型处理这些输入脉冲经过网络计算后在LIP输出层产生一个最活跃的神经元位置。该位置坐标被反向翻译成机器人视野中的坐标再通过YARP发送给iCub的电机控制模块驱动其头部运动使摄像头中心对准该坐标点。这个闭环实现了从“像素”到“脉冲”再到“网络计算”最后到“物理动作”的完整通路。3.2 软件工具链与模型部署研究者使用了PyNN来描述神经网络模型。PyNN是一个跨模拟器的神经网络描述语言你可以用近乎相同的代码在多种神经形态硬件或软件模拟器上运行你的网络。这对于研究的可复现性和平台迁移至关重要。具体的部署依赖于SpiNNaker的PACMAN工具链。这个工具链能自动完成一项极其复杂的工作它将用PyNN描述的高层网络模型自动映射到底层由数万甚至数十万个处理器核心组成的SpiNNaker硬件上。它会考虑神经元的分配、突触连接的路径规划、通信负载的均衡等问题让研究者无需手动处理底层的并行计算和通信细节可以专注于模型本身的设计与实验。3.3 图像预处理流程详解原始摄像头图像不能直接扔给SNN。研究团队设计了一套预处理流水线这是工程成功的关键一步原始图像捕获iCub摄像头获取RGB图像。饱和度视图转换将图像从RGB色彩空间转换到HSV并提取饱和度通道。这一步能有效增强彩色物体与背景的对比度减少光照变化的影响。目标跟踪与区域提取使用Aquila库中的跟踪器模块从场景中分割出潜在的物体区域并计算其最小外接矩形边界框。这一步将注意力从整幅图像聚焦到几个候选物体上。下采样与脉冲生成将每个边界框内的图像区域下采样到一个固定的低分辨率网格如32x32。对于网格中的每个位置对应一个输入“视网膜”神经元如果该位置的像素值超过阈值视为“ON”则在对应时间步为该神经元生成一个脉冲事件。这套流程巧妙地将复杂的计算机视觉问题物体分割与SNN的简单、事件驱动的输入需求结合了起来。SNN不需要处理高分辨率、高维度的原始像素而是接收一组稀疏的、表示“哪里可能有物体边缘”的脉冲事件大大降低了计算负担。4. 网络增强策略与学习过程从“能用”到“好用”的进化初始的基础网络虽然能工作但性能并不理想注意力容易漂移对干扰物敏感。研究团队没有选择“大力出奇迹”地增加网络规模而是进行了一系列精心设计的、可叠加的架构增强。这些增强每一项都对应着对生物视觉系统或学习机制的深入理解。4.1 关键增强措施及其作用层间反馈连接在最初的纯前馈网络V1-V2-V4中加入了从V4到V2以及从V2到V1的反馈连接权重设置为前向连接的0.8倍。这创造了微循环。它的作用类似于“注意力维持”和“对比度增强”。当一个物体被V4层表征后反馈信号可以强化V2和V1层中对应特征的活动使得对该物体的表征在短时间内更稳定不易被噪声或短暂遮挡打断。实验结果证实开启反馈后输出层LIP对偏好目标的激活更集中、更强烈。引入额眼区层用动态的、基于显著性计算的FEF层替换了最初简单的、全局性的PFC偏置。FEF层接收V2的输入计算出一个空间特异性的显著性地图再与PFC的目标偏好结合生成对V4的精细化调控。这意味着偏置不再是“所有垂直特征都加强”而是“在那些近期出现过显著活动的区域如果是垂直特征则加强”。这使网络能更智能地将注意力引导到场景中真实存在的、且符合目标特征的物体上而不是空泛地增强整个特征平面。双极性偏置输出最初的PFC输出只有兴奋性信号。增强后通过一个抑制性神经元中继层将FEF对厌恶朝向的偏置输出转换为对V4的抑制性输入。这样对于偏好朝向V4神经元得到“助推”对于厌恶朝向V4神经元则被“压制”。这种推拉结合的双极性机制极大地提高了网络在选择目标时的信噪比。4.2. STDP学习过程的精妙设置学习并非在整个网络上盲目进行而是被精确地“引导”发生在V2到V4的连接上。这是整个行为学习成功的关键设置学习窗口STDP只在一个时间窗口内生效。实验中设置为±30毫秒。这意味着只有V2和V4神经元脉冲的时间差在这个范围内突触权重才会改变。这既符合生物观察也避免了需要无限记录脉冲历史带来的计算开销。非对称学习率权重增加的幅度和减少的幅度被设置为略有不同。实验中增强为0.01 nA抑制为-0.012 nA。这微小的不对称性有助于网络在学习和遗忘之间取得平衡。设置权重边界权重被限制在一个范围内。这防止了权重无限增长或衰减到负值生物上不现实保证了网络的稳定性。创造因果条件通过精心设置PFC/FEF对V4的偏置研究者让V4神经元处于一种“蓄势待发”的状态。对于偏好朝向的物体对应的V4神经元膜电位被提升到接近发放阈值的水平。此时来自V2的一个微弱输入脉冲就足以“扣动扳机”引发V4发放。这确保了V2的脉冲在时间上几乎总是先于V4因果序从而触发STDP的增强效应。反之对于厌恶朝向V4神经元被抑制V2的脉冲很难引发其发放因此连接得不到增强。这个过程可以形象地理解为“教练PFC/FEF扶着运动员V4的手让他更容易击中靶心V2的输入”。每成功一次运动员自己手臂V2-V4连接的力量就增强一分。多次练习后即使教练松手运动员也能准确命中。4.3 实验结果分析从数据看行为进化实验设置了包含水平、垂直物体以及无明确朝向的干扰物圆球的场景。网络被设定为偏好垂直朝向。学习效果在未学习前即使有PFC偏置机器人对垂直物体的注视也是犹豫和不稳定的。经过50毫秒到1000毫秒不等的在线学习后网络输出发生了显著变化。LIP层中对应垂直物体的神经元活动变得越来越强、越来越集中。在长达1000毫秒的学习后机器人几乎能瞬间、稳定地将注意力锁定在垂直物体上。抗干扰能力学习完成后即使关闭PFC的偏置即不再有“注意垂直物体”的指令网络依然表现出对垂直物体的强烈偏好。更重要的是当场景中加入干扰物时学习后的网络能有效忽略干扰坚持注视已学会的目标物体。这证明了学习是真正发生在网络连接中形成了内在的、目标导向的注意倾向。权重变化分析对学习后V2-V4连接权重的可视化显示增强主要发生在与偏好朝向相关的连接上且呈现出特定的空间模式。一个有趣的发现是权重增强主要发生在“促进”方向而“抑制”方向的权重变化很弱。这印证了经典STDP规则更擅长学习“该做什么”而不是“不该做什么”。要学习抑制可能需要其他机制如稳态可塑性的辅助。增强效果的累积性单独开启反馈、或单独引入FEF都能带来一定的性能提升。但当所有增强反馈、FEF、双极性偏置、STDP学习全部开启时网络表现产生了质的飞跃。注意力从模糊的区域聚焦到精确的点从缓慢的搜索变为快速的扫视。这表明神经形态系统的强大性能可能并非来自某个单一的“银弹”机制而是多种互补机制协同作用的结果。5. 实践启示、挑战与未来展望通过这个项目我们得到的远不止一个能完成特定任务的机器人。它为我们设计和理解未来的类脑智能系统提供了宝贵的实践经验。5.1 给从业者的核心启示“混合”策略优于“纯粹”策略不要试图用一个极其复杂、完全仿生的单一网络解决所有问题。本项目成功的关键在于结合了仿生的SNN核心与传统的预处理和控制系统。用成熟的计算机视觉方法如目标跟踪为SNN提供结构化的输入用SNN实现核心的、自适应的事件驱动决策再用传统的控制方法执行动作。这是一种务实且高效的工程路径。架构设计需要引导学习在SNN中学习不是万能的。你必须为学习创造合适的条件。本项目中通过设计PFC/FEF对V4的精细化偏置人为创造了STDP生效所需的因果时序条件。这告诉我们网络架构哪里该有反馈哪里该有调制和学习规则是相辅相成的好的架构能让学习事半功倍。实时性与简化之间的权衡为了在SpiNNaker上实现实时运行模型做了大量简化如使用LIF神经元、简化的STDP规则、省略部分脑区。但这并没有妨碍它展现出有趣的学习行为。这说明在工程实践中抓住生物原理的核心思想如脉冲、时序、可塑性并用尽可能简单的模型实现它往往比追求极致的生物真实性更重要。评估指标需要创新如何定量评估一个SNN-机器人系统的性能传统的分类准确率、处理速度可能不完全适用。本项目采用了注视点分析、权重变化可视化、行为成功率等多种方式。开发适用于神经形态系统的、能反映其自适应、实时、能效特性的评估体系本身就是一个重要的研究方向。5.2 当前面临的挑战与应对思路可扩展性与通用性当前网络是针对特定任务基于朝向的视觉注意设计的。如何将其扩展为能学习更复杂、更抽象概念的通用架构一个思路是采用更模块化的设计将不同的功能网络如物体识别、空间记忆、决策作为可插拔的组件通过定义清晰的脉冲接口进行交互。学习速度与稳定性基于STDP的在线学习通常较慢且权重可能发生漂移。可以探索将STDP与其他学习规则如稳态可塑性、奖励调节可塑性结合或引入元学习机制来调整网络本身的学习参数。传感器-处理器紧耦合目前图像预处理在主机CPU上进行增加了延迟和功耗。未来的方向是开发更“神经形态”的视觉传感器如事件相机其输出直接就是脉冲流可以与SpiNNaker这类芯片进行无缝、低延迟的对接形成真正的传感器-处理器闭环。从感知到行动的完整闭环本项目只实现了“注意”凝视控制。一个完整的认知机器人需要将感知、学习、决策、运动控制全部整合在一个统一的脉冲神经网络框架下。这需要设计更复杂的网络可能涉及基底核、丘脑、小脑等脑区的功能模型。5.3 未来可能的应用场景这项技术的潜力远不止于实验室演示低功耗嵌入式视觉系统在无人机、自动驾驶汽车、移动机器人上需要实时处理视觉信息但电池受限的场景神经形态系统的高能效比优势巨大。自适应人机交互让服务机器人或陪伴机器人能通过在线学习理解并适应用户的个性化注意习惯和意图。神经科学研究的仿真平台为研究视觉注意、学习记忆的脑机制提供一个可完全控制、可反复实验的“硅基大脑”模型。新型人工智能算法启发脉冲神经网络中基于时空模式的计算方式可能为解决传统人工智能在时序信息处理、小样本学习、持续学习等方面的难题提供新思路。回顾整个项目最打动我的不是它解决了多么复杂的问题而是它展示了一条清晰的路径如何将神经科学的洞见、神经形态硬件的特性与机器人学的需求相结合一步步构建出一个能够真正在现实世界中学习和适应的智能体。它告诉我们通往更通用人工智能的道路或许不在于构建更大的数据模型而在于创造更精巧的、能与世界实时交互的学习架构。这个整合了SpiNNaker与iCub的实践正是这条道路上一次坚实而迷人的探索。