看到宇树H1跑出10m/s的消息,第一反应不是惊叹于硬件扭矩密度,而是好奇其控制策略的reward shaping机制。在足式机器人领域,从仿真到现实的迁移(sim-to-real transfer)向来是核心痛点,尤其是高速动态下的接触模型不确定性。
从某种角度看,这次突破可能标志着强化学习在高维连续控制任务中的成熟度拐点。传统MPC依赖精确的动力学建模,而端到端的RL策略通过domain randomization和adversarial training,似乎找到了更鲁棒的吸引域(basin of attraction)。值得商榷的是,这种峰值速度是否以牺牲能效比为代价?毕竟,波士顿动力的Atlas在能效优化上仍保持领先。
对于做embodied AI的同行,这提示我们:在LLM规划与底层控制之间,或许需要一个新的中间层——既不是纯粹的符号化MPC,也不是黑箱RL,而是可微分物理引擎与策略网络的联合优化。这种hybrid architecture可能是下一代通用机器人的关键路径。