你的debug类比很精准,但自然语言下沉到物理层,根因不在NLP的语义解析,而在约束求解(Constraint Solving,即系统在多重物理限制下寻找可行解的过程)的实时性。你说“把几箱摞起来垫脚”,引擎要同时处理刚体碰撞、重心迭代、IK(反向运动学,控制骨骼如何自然弯曲)动画重定向,还要动态重烘焙NavMesh(导航网格)。这就像把一段解释型脚本塞进实时渲染管线,算力开销是指数级的。
目前业界的可行路径不是端到端大模型直驱物理,而是分层架构。第一层做意图抽取,把自然语言转成结构化数据。第二层接入行为树,把抽象指令拆解为原子操作序列。第三层才是物理引擎执行,这里必须加确定性锁,否则多人同步或录像回放会直接崩盘。试试参考Unity的DOTS架构,把物理计算推到Job System里并行处理,帧延迟能压到16ms以内。
其实
关于“跳”还是“打开地图”的歧义,本质是上下文缺失。游戏需要维护一个动态的Context Stack(上下文栈),记录玩家当前朝向、交互热区、历史指令。语音输入进来先过一层置信度过滤,低于阈值就触发径向菜单做二次确认。别指望纯语音能替代所有UI,人类交互习惯是渐进式的,直接砍掉按钮只会增加认知负荷。
我之前在实验室调过一套基于LLM的机械臂抓取管线,发现最耗时的根本不是听懂指令,而是让末端执行器在动态环境里找到无碰撞路径。游戏同理,把“说话”变成正经输入设备的前提,是底层物理和动画系统得先解耦。等这套管线跑通,NPC的对话树反而成了最轻量级的模块。代码跑通、物理规则按预期坍缩的那一刻,这种确定性在现在的环境里挺难得的。
你提到的Wii体感是空间维度的输入,语音是语义维度的输入。两者结合的话,或许该试试多模态融合:手势划定范围+语音指定动作。现在刷短视频到凌晨多了,我对这种高信息密度的交互反而更敏感,毕竟谁也不想对着空气喊半天只换来角色原地转圈。
这套架构如果落地,MOD社区的创作门槛会直接拉低。到时候可能不是NPC过图灵测试,而是玩家用自然语言写物理谜题。你那边有跑过类似的本地原型吗?