[具身智能-599]：传统的感知、决策、控制与大模型的感知、决策、控制的相同点与不同点，各自的技术方案。

张

张建站

2026/6/21 19:59:01

10分钟阅读

[具身智能-599]：传统的感知、决策、控制与大模型的感知、决策、控制的相同点与不同点，各自的技术方案。

要理解具身智能Embodied AI的变革必须厘清“传统机器人技术栈”与“大模型驱动技术栈”在感知、决策、控制这三个核心环节的本质区别。简单来说传统方案是“规则驱动”的精确数学计算而大模型方案是“数据驱动”的语义推理与概率生成。以下我为你详细拆解两者的相同点、不同点以及各自的技术方案。一、相同点核心闭环未变无论是传统机器人还是具身智能它们本质上都是智能体Agent都遵循经典的“感知-决策-执行”Sense-Plan-Act闭环逻辑目标一致都是为了完成特定任务如“把苹果拿给我”或“走到A点”。依赖反馈都需要通过传感器获取环境信息并根据反馈调整自身状态。物理约束最终都必须转化为物理世界的动作电机转动、力矩输出受限于物理定律动力学、运动学。⚖️ 二、不同点与技术方案的深度对比我们将这三个环节拆解来看你会发现底层的技术方案发生了翻天覆地的变化。1. 感知 (Perception)从“几何测量”到“语义理解”核心差异传统感知关注“在哪里”和“是什么形状”。它擅长处理结构化数据如点云、边缘但对物体缺乏语义理解不知道那是“易碎的玻璃杯”还是“柔软的毛巾”。大模型感知关注“是什么”和“意味着什么”。它能理解开放世界的语义文化属性具备常识推理能力例如看到“水洒了”能联想到“需要擦干”思维属性。维度传统技术方案大模型技术方案核心逻辑特征工程与几何计算多模态对齐与语义表征视觉算法SLAM(即时定位与地图构建)、SIFT/SURF(特征点提取)、YOLO/R-CNN(特定类别的目标检测)。Vision Transformer (ViT)、CLIP(图文对齐)、Segment Anything (SAM)(通用分割)。数据形态深度图、点云、RGB图像像素。图像文本的联合嵌入向量(Embedding)。局限性只能识别训练过的特定物体遇到未知物体如一个奇怪的玩偶会失效无法理解场景的语义如“杂乱”。对几何精度的感知较弱难以直接输出精确的3D坐标且推理延迟较高。2. 决策 (Decision-making)从“状态机”到“推理规划”核心差异传统决策基于预设规则。如果环境变化超出了预设的If-Else逻辑系统就会崩溃。它像一本写死的操作手册。大模型决策基于常识推理。大模型大脑可以将模糊的自然语言指令拆解为具体的步骤序列并能处理从未见过的场景。表格维度传统技术方案大模型技术方案核心逻辑有限状态机 (FSM)或行为树 (Behavior Tree)。思维链 (Chain of Thought)与任务规划 (Task Planning)。实现方式工程师手写代码逻辑If (检测到障碍物) Then (停止)。模型自动生成逻辑输入“做咖啡”模型输出步骤[找杯子, 接水, 加热, 倒水]。灵活性极低。修改任务需要重新编程。极高。通过提示词 (Prompt) 即可改变任务逻辑。典型架构分层架构中的“高层规划器”通常基于逻辑符号。VLM (视觉-语言模型) 充当“大脑”负责理解意图和拆解任务。3. 控制 (Control)从“模型计算”到“策略生成”核心差异传统控制依赖精确的物理数学模型。它假设我们知道机器人的质量、摩擦力、电机参数。如果抓取的物体比预想的重传统控制器可能会震荡或失稳。大模型控制依赖数据训练出的策略直觉。它不依赖显式的物理公式而是通过海量数据“学会”了如何用力。表格维度传统技术方案大模型技术方案核心逻辑基于模型的控制 (Model-Based Control)。端到端策略学习 (Policy Learning)或模仿学习。典型算法PID(比例-积分-微分控制)、MPC(模型预测控制)、WBC(全身控制)。VLA (视觉-语言-动作模型)、Diffusion Policy(扩散策略)、RT-1/RT-2。输入输出输入目标轨迹/位置输出电机电流/力矩。输入图像语言指令输出直接是动作令牌 (Action Tokens) 或关节目标。优势精度极高稳定性好适合高频1kHz控制。泛化性强能处理非结构化接触如插拔电线、叠衣服。三、总结与融合大小脑协同架构虽然大模型在感知和决策上碾压传统算法但在实时控制和稳定性上传统算法依然不可替代。因此目前最先进的具身智能如Figure 01, Tesla Optimus都采用了“大小脑协同”的混合架构大脑大模型负责“慢思考”。感知理解环境语义“桌上有个苹果”。决策拆解任务“走过去抓起来”。技术方案VLM, LLM, Transformer。小脑/脊髓传统算法/小模型负责“快反应”。控制维持平衡处理高频力矩控制防止摔倒。技术方案MPC, PID, 强化学习策略网络。一句话总结传统的方案是“工程师把规则写进代码里”精准但死板大模型的方案是“模型从数据里学会规律”灵活但需要算力与数据喂养。未来的具身智能是用大模型的通用认知能力去指挥传统控制理论的精准执行能力。

[具身智能-602]：Three.js如何利用3D模型文件与URDF文件，完成机器人Web仿真？

利用 Three.js 进行机器人 Web 仿真，主要有两种主流的技术路线，它们分别对应着不同的模型文件格式和应用场景。简单来说，选择哪种方式取决于你的需求是高保真可视化还是精确的运动学仿真。路线一：使用 URDF 文件这是机器人领域的标…...

2026/5/30 21:36:29 阅读更多 →

企业内网应用安全接入外部大模型的架构设计与实践

企业内网应用安全接入外部大模型的架构设计与实践在数字化转型的浪潮中，企业应用集成大模型能力已成为提升业务智能水平的关键路径。然而，对于金融、医疗、法律等对数据安全与合规性有严格要求的行业，如何确保内部业务系统在“数据不出域”…...

2026/6/16 20:45:22 阅读更多 →

AISMM模型不是选择题，是生存题：2024年未部署该模型的供应商管理体系，将无法通过Gartner Tier-1审计

更多请点击： https://intelliparadigm.com 第一章：AISMM模型与供应商评估 AISMM（Artificial Intelligence Supply Chain Maturity Model）是一种面向AI系统供应链的成熟度评估框架，专为量化供应商在数据治理、模型可追…...

2026/6/3 16:11:05 阅读更多 →

PyGAD实战指南：5大工业级遗传算法应用与避坑手册

1. 为什么是PyGAD而不是自己手写遗传算法？在Python生态里，提到遗传算法（Genetic Algorithm），很多人第一反应是“得从零开始搭轮子”：初始化种群、定义适应度函数、写选择/交叉/变异逻辑、控制迭代终止条件……...

2026/6/21 0:06:51 阅读更多 →

emWin三大核心控件实战：进度条、单选按钮与滚动条开发指南

1. 项目概述：深入emWin三大核心控件的实战应用在嵌入式图形界面开发领域，SEGGER的emWin以其高效、稳定和丰富的控件库而著称。对于许多从单片机裸机开发转向带屏交互的工程师来说，如何高效、正确地使用这些控件，往往是项目从“能跑…...

2026/6/21 0:07:47 阅读更多 →

英雄联盟终极效率工具：League Akari 完全指南

英雄联盟终极效率工具：League Akari 完全指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一款基于官方LCU API开…...

2026/6/21 0:08:50 阅读更多 →

Transformer 中的高效推理：推理时注意力压缩

Transformer 中的高效推理：推理时注意力压缩作者: Hao Sun, Yuxuan Li, Wei Lu 来源: https://arxiv.org/html/2606.20529v1摘要大型语言模型（LLMs）的部署成本高昂，主要受限于推理阶段的内存与计算开销。本文提出了一种推理时注…...

2026/6/21 0:09:56 阅读更多 →