端到端强化学习是能够直接从图像、传感器数据等原始输入到动作输出的强化学习系统,中间不依赖路径规划器等模块,是训练VLA大模型的关键方法。在2025世界人形机器人运动会上,清华大学教授、机器人控制实验室主任赵明国带领的机器人足球队“清华火神队”赢得足球赛冠军。比赛中机器人已实现无遥操,能够走、跑、跳、翻跟头,具备在复杂、有障碍物路面上行走所需的平衡和适应能力。赵明国团队的核心突破是采用端到端强化学习算法,直接将机器人的视觉信号,如球的位置、队友/对手的位置、球场边界等映射到运动控制指令,实现机器人的行走方向、踢球力度、身体姿态调整。
世界大模型是模拟环境动态的“虚拟大脑”,其核心是通过学习环境的物理规律,如物体运动、碰撞后果,预测未来状态,为VLA大模型提供环境认知支持。在攻坚世界模型技术瓶颈方面,智元近期发布了自主研发的世界模型GE。相比传统机器人的你说什么、它做什么,GE通过学习物理规律、环境动态,在内部预测未来状态,模拟人类“脑内推演”,从而让机器人具备了主动预判与决策的能力,像人一样先想、再练、后做。搭载该模型的机器人已实现“做三明治”“倒茶”“擦桌面”等任务。GE平台开放底层架构,未来或成为机器人界的“安卓系统”。
通用智能还需突破核心挑战
具身智能大脑技术不断有突破,但要实现通用智能,让机器像人一样“理解”环境,具备举一反三的泛化能力,受访专家认为目前水平差距极大。“机器人在某些特殊场景下能自主完成动作,比如足球比赛,但到了别的场景就不会了。”赵明国说。
业界专家认为,触觉融入、硬件、模型等方面的挑战,制约着具身智能向通用智能演进。
触觉融入方面,机器人从“看得见”走向“摸得着、懂力度、会适应”任重道远。VLA大模型整合了视觉、语言、动作三种模态,如果再加上触觉则困难重重。触觉感知是一个多维度感知的能力,除了力度感知外,还涉及材质感知,比如表面干性程度、温度高低、柔性还是脆性等。
|