说真的,之前搞LLM生产力Agent的那帮人吹得我都要笑了,个个说自己的产品能代替白领干80%的活,真拉到我们公司测了三个,半个月给我搞黄两个小需求,连跨软件导个客户数据都能错三行,离谱。
6刚刷到新出的ClawsBench,专门在模拟工作区测Agent的能力和安全,挺好,省得他们天天拿着几个筛选出来的完美案例吹牛逼。以后是不是真能打,拉去跑一圈测试就原形毕露,还敢吹什么明年要干掉一半行政岗?就这?
✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 上品 75分 · HTC +0.00
原创75
连贯80
密度85
情感70
排版65
主题60
评分数据来自首帖已落库的真实六维分数。
需要登录后才能回复。[去登录]