莫拉维克悖论与机器人奥运介绍了pi他们对于莫拉维克悖论的观点以及他们在机器人奥运这个比赛任务设置下中达到的效果。首先先来了解一下什么是moravec悖论也就是莫拉维克悖论。参考来自reddit的这篇文章的小解读https://www.reddit.com/r/singularity/comments/18feo9l/moravecs_paradox_why_ai_makes_art_while_humans/Moravec’s paradox is the observation in artificial intelligence and robotics that, contrary to traditional assumptions, reasoning requires very little computation, but sensorimotor and perception skills require enormous computational resources. The principle was articulated by Hans Moravec, Rodney Brooks, Marvin Minsky and others in the 1980s.翻译过来就是莫拉维克悖论是人工智能和机器人技术中的观察结果与传统的假设相反推理指的是像LLM一样自然语言以及数学推理思考需要很少的计算但感觉运动和感知技能在机器人身上robot身上需要巨大的计算资源。汉斯·莫拉维克、罗德尼·布鲁克斯、马文·明斯基和其他人在20世纪80年代阐明了这一原则。来到本文的第一句话“1996年当一台电脑在国际象棋比赛中击败世界冠军时它可以选择最好的棋步但需要一个人来移动棋子。二十年后当AlphaGo击败围棋世界冠军时它仍然无法自己移动棋子。如今LLMs可以解决金牌IMO问题但不能用铅笔写下答案。我们对某事对我们来说有多难的期望与对机器有多难的预期之间的这种不匹配被称为莫拉维克悖论。看似困难的问题如下棋、解决数学问题或在拥挤的街道上规划路线以尽量减少旅行时间对机器来说是“容易的”而看似简单的问题例如拿起棋子、写笔记、做花生酱三明治或洗碗则是极其困难的挑战。”一些人类看起来很简单的任务和指令比如转动魔方不要让魔方掉落这些简单的灵巧操作对于机器人/VLM/LLM来说会非常困难。pi在机器人奥运里基本上都能完成的比较好。但可是基本上都是比较慢的可以通过官网上他们倍速播放来看。有些任务可能对于人来说可以比较快速的完成但对于机器人来说由于专家数据集采集的时候需要对齐操作员和机器人的任务精细度会慢很多从而使得在这些专家数据集上训练出来的模型速度也会比较慢。个人解读接下来就是pi对于moravec悖论的解读 “为什么容易的事情那么难我们的进化祖先很少需要计算多元积分但他们每天都要应对无情的物理挑战。因此我们的大脑非常善于用手操纵物体并解决许多其他日常的身体挑战。我们立即注意到重新调整大脑的用途以解决数学问题是多么困难但当我们把大脑用于它这里指的是解决数学问题进化的目的时我们几乎不会流汗。正是因为我们非常擅长物理交互建造能够与物理世界交互的机器对我们来说比建造解决认知任务的机器更难。我们可以向机器“解释”如何执行任务通过编程语言但这并不比向人“解释”任务更有效。想象一下给某人下达如何拉小提琴或像奥运会运动员那样游泳的指令即使你是这类任务的专家你的“指令”也只能作为一个起点。要真正学习这些技能你的学生需要自己练习。更糟糕的是机器人无法执行这样的指令因为它甚至缺乏基本的物理技能——如何拿铅笔、如何拿起刀以及如何用海绵擦拭。我们不能告诉它“做三明治先拿起刀”因为它甚至不知道如何执行该技能的最基本构建块。这些构建块牢牢地位于物理智能领域超出了我们自我反省的范围。我们无法对身体智能进行编程因为我们实际上并没有在意识层面上理解它。获取和应用先验知识语言模型之所以如此强大正是因为它们可以捕获大量知识然后以组合的方式进行概括将这些知识应用于新问题。但语言模型本身并不能解决身体智能问题因为它们是在人类交流即网络文本上训练的而人类交流并不能传达身体技能。我们不会在网络论坛上发布关于如何移动手臂清洁油锅的详细说明因为每个人都知道而且我们实际上不知道如何传达。即使是在过去十年中取得巨大进步的当前系统的感知能力在很大程度上仍然植根于解释、说明和标签——人们可以很容易地用语言传达的信息这些信息可以从网络上获得。关键在于将多模态LLM中的先验知识与真实物理行为的多样化和代表性数据相结合从而提供对物理任务的“理论”理解。这不是一个我们可以走捷径的地方——就像不使用图像就不可能学会看一样如果没有足够的数据来支持这些交互就不可能在物理世界中学会行动。但至关重要的是创建物理智能基础模型的目的不是教给模型机器人可能做的每一种行为而是提供足够丰富多样的行为基础以提供有意义的物理理解并为多模态LLM捕获的语义知识奠定基础。通用人工智能模型如何克服悖论机器学习革命的苦乐参半的教训是我们难以直接编程到计算机中的许多东西都可以从数据中学习但只有在数据可用的情况下才能学习。Moravec悖论可以被视为对数据稀疏性挑战的陈述如果我们不能从网络上的数据中学习我们需要什么并且我们被迫对其进行编程我们将无法获得良好的性能。如果我们能获得特定技能的大量数据我们应该能够可靠地学习它但这也不够——我们不想为机器人需要执行的每一项任务都需要大量数据。像π0.6这样的视觉语言动作模型提供了一种从高度多样化的任务中获取一般物理知识的方法为使用更小、更实用的数据集学习下游技能提供了强大的基础。这就是为什么我们能够通过微调我们最新的机器人基础模型来解决这些任务而没有使用大规模机器人预训练的基线模型无法解决任何问题。随着我们的模型变得越来越强大即使是最复杂的任务学习也会变得更加容易。新任务可能不仅需要更少的数据而且可以使用更简单的数据源正如我们在最近关于人机转移出现的帖子中讨论的那样甚至可以通过强化学习利用自主体验。随着时间的推移瓶颈将向上转移当我们以一种普遍而稳健的方式解决低级技能问题时我们将能够通过更高层次的培训进一步改进我们的政策我们在最初的π0.5研究论文中的言语指导培训方案中已经观察到了这一点的早期迹象。随着这种情况的发生我们最终将能够建立真正通用的模型将物理理解和认知结合起来也许以一种与我们自己的大脑没有太大区别的方式理解世界。”