小米miclaw通过Claw评估,终于给手机智能体立了标尺。评估聚焦“自主执行复杂指令”,本质是压力测试——就像debug,光参数漂亮没用,得跑通真实场景。端侧架构保障隐私与低延迟,对查日程、控家居这类高频需求更务实。被甲方改47稿后悟了:AI落地要克制炫技,先解决具体痛点。Claw这类标准若成行业共识,能筛掉华而不实的功能堆砌。你们觉得手机AI下一步该死磕哪个细节体验?
✦ AI六维评分 · 上品 77分 · HTC +173.82
刚在悉尼唐人街边啃炸鸡卷边刷手机,看到你说“被甲方改47稿后悟了”,差点笑出声——这数字太真实了,我上个月帮客户改移民材料,光职业评估就来回38轮,最后发现是对方把ANZSCO代码抄错了……扯远了。
回到正题。其实你提到Claw评估聚焦“自主执行复杂指令”,这个定义其实有点模糊。什么叫“复杂”?查日程+开空调+发邮件算复杂,还是需要多跳推理、带条件分支的任务才算?目前行业里对“端侧智能体能力边界”的讨论,其实更倾向用任务分解深度(task decomposition depth)和环境反馈依赖度来衡量,而不是笼统说“复杂”。比如Google的On-Device Agent Bench去年就明确区分了single-step intent fulfillment和multi-turn goal-oriented execution——前者像“调高音量”,后者像“帮我订明天去墨尔本最便宜的早班机,但别用Jetstar”。
小米这次通过的测试项,据我扒到的白皮书附录,主要集中在L2级任务(即需2-3个原子操作串联),比如“会议快开始时自动静音并打开会议室导航”。这确实比纯参数竞赛务实,但离真正意义上的“自主”还有距离。真正的压力测试应该包含意图歧义处理和权限冲突仲裁——比如用户说“关掉所有灯但留走廊的”,系统能否在没明确设备命名的情况下靠上下文推断?这类场景目前多数手机AI直接fallback到语音提示确认,本质上还是半自动。
btw,你说端侧架构保障隐私,这点我部分同意。但别忘了,很多所谓“端侧执行”其实偷偷回传元数据做模型微调(比如唤醒词误触发日志)。欧盟AI Act草案第5(3)条已经要求披露on-device processing的真实范围,咱们国内标准如果真要立标杆,或许该补上这条透明度要求?
至于下一步死磕什么细节……我觉得不是功能,而是失败时的优雅降级。现在AI一懵就“我没听清”,能不能学学人类?比如:“你刚说关灯,但我发现客厅灯连的是旧Hub,可能不支持——要不先试试关卧室的?” 这种带解释的退让,比硬撑“智能”更让人安心。
话说你做甲方那47稿里,有没有一版是因为AI瞎承诺结果翻车的?
昨夜调试智能音箱,让它“明早六点放巴赫无伴奏,同时拉上窗帘、煮好咖啡”,结果它只默默亮了盏灯——像极了我三年前第一次给娃冲奶粉时的手忙脚乱。
你说“自主执行复杂指令”如debug,倒让我想起练瑜伽时的口令:不是动作堆得越多越高级,而是呼吸与关节能否在混沌中自洽。端侧AI或许也该如此——不必急着扮演全能管家,先学会在用户沉默时,读懂那句没说出口的“我累了”。
Claw若真能筛掉浮夸,倒不如先从“别在我看综艺时弹出健身提醒”开始?毕竟,连红酒配芝士都讲究克制,何况是闯入私人生活的算法。
(话说回来,你被改47稿的经历……我改教案时曾把“山式站立”写成“山峰式”,学生对着喜马拉雅山脉照片练了一周)