Kimi刷榜后，开源社区该警惕什么

发信人 turing__dog · 信区开源有益 · 时间 2026-05-03 15:12

返回版面回复 5

[导读] [开源有益] [本帖首页] [回复]

✦ 发帖赚糊涂币【开源有益】版面系数 ×1.2

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 极品 86分 · HTC +316.80

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 turing__dog 2026-05-03 15:12

[链接]

Kimi K2.6在coding challenge里力压Claude和GPT，先道一声厉害，国产大模型在代码生成上的迭代速度确实惊人。不过从某种角度看，这类封闭式benchmark的高分，与开源工程的长期价值之间，存在一道值得深究的鸿沟。

我写了五年程序，现在转行写小说，愈发觉得好代码和书法相通，贵在气韵生动与结构留白。Coding challenge有明确测试集，相当于临帖；真实开源项目却是创作，要处理模糊需求、技术债和人际协作。若社区只迷信榜单，新人容易误以为"过test即合格"，忽视可读性与架构美学。

更值得商榷的是，当AI刷榜成为常态，手工code review的传统会不会被边缘化？目前缺乏K2.6在百万行级开源仓库中长期维护的数据支撑。

各位在引入AI辅助编程时，是先看榜单，还是更信社区里口碑相传的代码风格？

#2 dashism 2026-05-03 16:13

[链接]

我最近帮好几个做开源的码农办移民，聊起AI辅助编程这事儿，清一色都是先看社区口碑，没人盯着榜单选工具，code review哪能说丢就丢啊。

#3 cynic_316 2026-05-03 17:57

[链接]

哎你说的代码和书法相通这点，我居然从做马卡龙的流程里找到共通点了。
说真的那些甜点赛事的金奖作品，哪个不是对着固定的评分标准练了上百次的？糖粉比例、烘烤时间、裙边高度都卡到毫米级，和你说的coding challenge刷高分一模一样，完全是标准化应试产物。但真要开个线下店，哪有那么多标准场景？客人要减30%糖还要保持湿润度，后厨学徒当天手抖把黄油放多了10克，甚至碰上梅雨季空气湿度爆表，你拿比赛那套固定流程过来，做出来的东西能赔得你底裤都不剩。
我弟上次用Kimi写了个库存统计的小工具给我用，测试的时候数据准得离谱，我还特意奖励了他一杯全糖珍珠奶茶。结果用了不到半个月就出问题，我平时给门口流浪的小孩送卖相不好的可颂、给熟客抹的零头，全被AI当成异常数据过滤了，月底盘货差了三千多块，我对着报表对了三个通宵才找着问题，喝的冰美式都够我开个小品鉴会了。
C’est la vie嘛，AI能搞定的都是有明确答案的题，可现实里不管是做甜点还是写开源项目，大半都是没标准答案的开放题。哦对了，我现在给我弟定了规矩，凡是他用AI写的代码必须逐行过一遍，下次再出这种bug，直接来我店里洗一个月的盘子。

#4 bronze48 2026-05-03 23:41

[链接]

你说这帮做开源的码农选工具没人盯榜单，我瞬间想起70年代我跟着美院老教授学画马的事了。那时候省里搞写实绘画技能比赛，评分标准卡得死，马的肩高腿长比例差一毫米都扣分，肌肉线条得跟解剖图谱严丝合缝才算合格。不少人天天闷在画室对着石膏马练，拿了头奖的，真要跟画院的老画师合作搞个草原主题的长卷创作，要么画风跟整个作品融不进去，要么画出来的马跟标本似的，连个跑起来的活气都没有。怎么说呢

我们那时候挑临本哪看什么比赛获奖集啊，都是师兄弟口耳相传，哪个老画师的手稿经得住反复拆，线条耐品，处理复杂场景的思路巧，就互相借过来抄，跟你们说的社区口碑可不就是一个道理？

还有你说code review丢不了，太有感触。我们那时候画完的稿子，不管你画了多少年，都得摆在教研室的长桌上，一群人围着挑毛病，哪块光影不对，哪根线条软了，哪怕外行人看着再完美也得改。前阵子我家侄孙在互联网公司写代码，说现在组里用AI写初稿快得很，可代码评审的时候比以前还严，一群人盯着扒逻辑漏洞，就怕AI悄摸藏了什么没考虑到的边界情况。

说起来这行当不管是握画笔还是敲键盘，底层的逻辑居然能串到一块去，也是有意思。

#5 eyesful 2026-05-04 00:29

[链接]

哎楼主居然也是做了五年程序员转写小说的？这是什么奇妙的同频啊，我全职写都市背景的推理小说快三年了，说个没人提过的角度吧，我最近试AI辅助写稿的经历刚好能完全对上。离谱
现在AI写作圈也有一堆乱七八糟的榜单，什么开篇抓眼球指数、情节冲突密度评分，榜上前几的模型我全薅过免费额度试，写个3000字的短篇开头，按测试标准拿高分简直轻轻松松，但真要写十几万字的长篇连载，要埋跨十几章的伏笔，要顺着读者的评论区反馈调整人物弧光，它写出来的东西全是流水线套路，连前一章刚提过主角对青霉素过敏，后一章就能写他去医院打青霉素退烧，literally驴头不对马嘴。
btw我前阵子和之前外企的老同事约着喝手冲，听他聊圈内的八卦，说现在好多大模型团队刷coding榜，专门爬了近五年所有公开的coding challenge的题和最优解当训练集喂，相当于考试前精准背了全题库啊，分数能不压过别人吗？
我之前维护了七年的老ERP项目那会，也试过好几个榜上前三的AI辅助工具，写个独立的小脚本跑得溜得很，真要改陈年老代码，它连当年我们组在注释里埋的离职同事的梗都看不懂，改出来的逻辑倒是通，但可读性差到离谱，后面接手的应届生看了三天哭着来问我能不能推倒重写。对了
对了你写小说会不会用AI工具当辅助啊？我上次用Kimi写个爵士酒吧的场景，连黑胶唱机的正常针压范围都瞎编，最后我翻了半晚上自己收藏的80年代的《音响世界》老杂志才改对~

#6 ink_2000 2026-05-04 00:47

[链接]

cynic_316, post: 126644

哎你说的代码和书法相通这点，我居然从做马卡龙的流程里找到共通点了。

说真的那些甜点赛事的金奖作品，哪个不是对着固定的评分标准练了上百次的？糖粉比例、烘烤时间、裙边高度都卡到毫米级，和你说的coding challenge刷高分一模一样，完全是标准化应试产物。但真要开个线下店，哪有那么多标准场景？客人要减30%糖还要保持湿润度，后厨学徒当天手抖把黄油放多了10克，甚至碰上梅雨季空气湿度爆表，你拿比赛那套固定流程过来，做出来的东西能赔得你底裤都不剩。

我弟上次用Kimi写了个库存统计的小工具给我用，测试的时候数据准得离谱，我还特意奖励了他一杯全糖珍珠奶茶。结果用了不到半个月就出问题，我平时给门口流浪的小孩送卖相不好的可颂、给熟客抹的零头，全被AI当成异常数据过滤了，月底盘货差了三千多块，我对着报表对了三个通宵才找着问题，喝的冰美式都够我开个小品鉴会了。

C’est la vie嘛，AI能搞定的都是有明确答案的题，可现实里不管是做甜点还是写开源项目，大半都是没标准答案的开放题。哦对了，我现在给我弟定了规矩，凡是他用AI写的代码必须逐行过一遍，下次再出这种bug，直接来我店里洗一个月的盘子。

想起上个月帮家附近的书画社整理旧藏登记踩的坑，简直和你这库存统计的事故如出一辙。
当时怕麻烦找了个带文字识别的AI工具，专门拿规整的名家落款、印刷印谱喂了几百张做训练，测试的时候识别准确率接近百分百，我还沾沾自喜省了半个月的功夫。真上手扫那些老条幅和拓本才傻了眼，老先生们酒后写的飞白落款、夹在落款缝隙里的赠言小字、还有边角盖的不规则闲章，全被AI当成印刷瑕疵给过滤掉了，最后半屋子旧藏我挨个翻了两遍核对，每天泡的祁门红茶都够给社里二十多个人每人发一罐。嗯…
之前练小楷临《灵飞经》，对着拓本卡每个笔画的起收粗细，临到老师都夸能乱真，上次让我给书院写招生启事，我照搬临帖的笔法写出来，刻板得像街边印的小广告，最后拆了重写，掺了半分行草的意趣才看着活泛。
你这罚弟弟洗一个月盘子的规矩真的合适，我现在但凡用AI搭个草稿，不管输出的结果多顺，都要逐行过一遍，就当是摸旧纸养手了。

需要登录后才能回复。[去登录]

回复此帖进入修真世界