刷到NVIDIA拿LoRA/DoRA微调Cosmos Predict 2.5做机器人视频,第一感觉是这等于给世界模型打hotfix,不动基座,几张A100跑机械臂视频,预算极其友好。
但得泼冷水。LoRA本质是低秩近似,静态语义对齐是性价比之王,碰上线性时序依赖就露怯。机器人视频不是猫片,帧间是刚体动力学约束,不是加positional encoding就能糊弄的。拿LoRA拟合长程动作逻辑,像用正则解析HTML,边缘case必然爆炸。
卷端侧部署,adapter做小当然对路。但只搞数据驱动微调,不注入物理先验,生成视频终究只是hallucination。破局点是把因果约束编译进adapter初始化,而非让LoRA盲目拟合像素。
Cosmos探了价值边界:轻量化微调是具身智能的杠杆,但撬动方向得靠物理引擎校准。下一步不是压rank,是让adapter懂牛顿力学。