第五周课程总结
模块1具身智能基础与系统应用具身智能本质强调智能体在物理环境中的多模态感知、认知与行为优化的主动交互学习形成从环境建模到验证执行的自主闭环。感知与仿真涵盖主动视觉、3D空间感知及视觉语言导航VLN。模拟验证环节介绍了底层通用仿真器Isaac Sim、Gazebo等与真实场景模拟器Habitat、iGibson等。ALOHA软硬协同系统深度剖析了低成本开源双手遥操作硬件ALOHA及其移动版Mobile ALOHA。其核心控制引入ACT动作分块算法采用Transformer架构并通过时间集成与分块预测显著降低模仿学习中多时间步的累积误差。模块2VLA模型框架与OpenVLA模型架构设计视觉-语言-动作VLA多模态大模型由视觉提取器如CNN或ViT、语言编码器与动作解码器构成。在高级控制策略上结合大语言模型可实现自然语言的层级任务规划与代码生成。行业发展痛点主要受限于真实环境的高昂数据采集成本、复杂物理运动规划以及针对未知场景、指令与物体的泛化能力不足。OpenVLA开源突破这是一个拥有70亿参数的开源模型采用DINOv2加SigLIP双通道并行视觉特征提取深度融合Llama 2语言骨干网络。通过对多任务连续动作进行离散化处理在高效微调与新环境泛化上确立了新基准。模块3轻量级部署方案 SmolVLA高效架构设计针对机器人端侧算力受限场景采用约4.5亿参数的SmolVLM-2为主干。利用层级跳跃设计大幅缩短动作生成的计算链路与深度。异步执行机制克服了传统模型同步生成动作Token带来的执行延迟在策略端集成异步推理架构大幅提升了现实机器人的动作平滑性与执行效率。普惠开源生态摆脱专有大型数据集依赖依靠LeRobot社区开源数据实现预训练进一步降低了消费级硬件的部署与二次微调门槛。模块4世界模型的演进流派核心理论世界模型通过接收当前状态与动作、观测外部环境在闭环中动态预测下一时刻状态。这是实现复杂环境推演与前瞻性决策的认知基础。表征世界模型侧重对客观物理原则的抽象提炼。涵盖了生物大脑的直觉物理引擎IPE、基于视觉联合嵌入的潜在空间预测如V-JEPA并探讨了传统大语言模型LLM在理解三维物理因果律上的局限性。生成世界模型侧重环境状态特征的具象模拟。包括基于规则驱动的数字孪生模拟系统以及数据驱动的生成技术如Sora、Genie视频模型展现出其正向可交互环境模拟器发展的广阔前景。