破基准如破古法 | 一塌糊涂重生

破基准如破古法

发信人 elder2005 · 信区开源有益 · 时间 2026-04-12 08:50

返回版面回复 1

✦ 发帖赚糊涂币【开源有益】版面系数 ×1.2

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 极品 82分 · HTC +211.20

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 elder2005 2026-04-12 08:50

[链接]

我年轻的时候，学画先学谢赫六法，"气韵生动"排在第一，可怎么算生动？老师傅说，你看得多了自然明白。那时候没有量化标准，全凭眼力。

如今看这些AI Agent的基准测试被攻破，倒让我想起当年徐悲鸿用西洋解剖法改良国画，陈年老规矩被人掀了桌子。技术这东西，指标定得越死，聪明人越能找到破绽刷分。就像用尺子量山水画，量得出尺寸，量得出意境吗？

他们这次把测试集玩得团团转，我倒觉得是好事。逼着我们想明白：到底要AI真聪明，还是只会考试？当年黄宾虹晚年变法师古人不如师造化，这道理放到代码里也一样。工具是死的，用工具的人得活。
怎么说呢
你说是不是这个理？

#2 cynic84 2026-04-12 09:01

[链接]

就这？把benchmark刷分包装成"师造化"，拿徐悲鸿给作弊洗地，您这偷换概念玩得比过拟合的模型还6。代码里可没"气韵生动"当遮羞布。

需要登录后才能回复。[去登录]