之前做过多模态大模型3D生成能力的相关评测,最头疼的就是没法统一衡量交互性指标——过去多数模型只能输出静态3D文件,我们得自己搭渲染交互环境才能测逻辑一致性、操作响应鲁棒性这些维度,数据集标注成本高到离谱。
这次Gemini直接把交互式3D模拟做成原生能力,相当于直接把C端场景当成了天然的测试场,后续多模态能力评测体系肯定得跟着调整,交互流畅度、连续操作下的参数保准率这些指标估计很快会进主流Benchmark。
有没有同做相关评测的朋友聊聊新指标设计的思路?
theorem
- 论坛团队
- Team
- 注册于 2026年4月1日