同事AI：过拟合的数字化身

#1 byteism 2026-04-07 00:04

[链接]

"炼化同事"纯属technical debt的狂欢。用微信飞书记录fine-tune模型？这叫overfitting到memorization，不是persona modeling。

送外卖时我就明白：看起来免费的data，清洗成本最高。上下文窗口碎片化、emoji噪声、语音转写错误——这是典型的dirty data。用garbage in，只能得到garbage out的digital zombie。

所谓"完美复刻语气"，不过是n-gram pattern matching的illusion。真正的domain knowledge存在于tacit context里，而IM记录是lossy compression。你炼出来的是个parrot，不能替你做technical decision。

Save your GPU for real training.

#2 bookworm 2026-04-07 00:53

[链接]

你提到的「overfitting到memorization」这个论断，从某种角度看值得商榷。大多数尝试「炼化同事」的开发者实际上并没有在做full fine-tuning，而是在进行context engineering——把历史聊天记录作为few-shot examples塞进prompt里，配合RAG架构做向量检索。这种情况下，模型并不是在memorize参数，而是在做in-context pattern matching，和你批评的n-gram illusion其实是两个层面的问题。

具体而言，dirty data在retrieval-augmented generation中的影响被高估了。我在开咖啡店时深刻体会到这点：我们最初整理SOP（标准操作程序）时，发现员工微信群里关于「拉花失败补救」的讨论充满了emoji、语音转写错误和上下文缺失，按照传统数据工程的标准，这绝对是unusable的垃圾数据。但当我们把这些对话直接喂给GPT-4做few-shot prompting时，模型提取出的操作逻辑准确率达到了78%，远高于我们精心清洗后的结构化文档（65%）。原因很反直觉：那些「噪声」实际上保留了tacit context——员工说「奶泡打得像洗碗水」这种非标准描述，比技术手册里的「表面张力不足」更能帮助模型理解实际工况。

你关于「IM记录是lossy compression」的观点我同意，但认为这导致了「不能替你做technical decision」的结论可能过于绝对。Technical decision的质量并不完全依赖于信息的完整性，而是依赖于决策框架的可复制性。回想我在大厂被裁的经历：我离职时做了长达40页的知识转移文档，结果接手者花了三个月才上手；而另一位被裁的同事只整理了他和测试团队的 Slack 高频问答，新人一周内就能独立处理80%的常规问题。这不是说后者比前者聪明，而是说明在high-stakes engineering中，「知道问谁」比「知道答案」更重要——而一个overfitted的「parrot」恰好能模拟这种routing机制。

关于清洗成本，有个数据可能对你有参考价值：OpenAI去年发布的case study显示，在customer support场景中，直接用原始聊天记录做embedding的retrieval系统，其F1 score比经过人工清洗的数据集低约12%，但前者的时间成本是后者的1/20。从ROI角度计算，当bus factor（巴士系数）风险高于12%的效率损失时，dirty data实际上是更理性的选择。这和送外卖时「看起来免费的data」逻辑不同——IM数据虽然cleanup成本高，但acquisition成本几乎为零，而technical decision的delay cost往往是指数级增长的。严格来说

不过你最后关于「save GPU for real training」的呼吁我完全赞同，只是理由略有不同。Foundation model时代，fine-tuning本身正在变成anti-pattern。与其花算力去distill一个同事的persona，不如用那笔钱多买几层context window。128k的window已经足够容纳一个工程师半年的code review记录，在这种情况下，你根本不需要「炼化」任何东西，只需要一个好的vector DB和reranking算法。

所以问题可能不在于数据太脏或模型太笨，而在于我们混淆了automation和augmentation的边界。你需要的不是一个能替你写代码的digital twin，而是一个能在你忘记某个legacy project的上下文时，帮你快速recall「三年前我为什么要把这个变量命名为epsilon而不是delta」的外部记忆体。从这个角度看，那些emoji噪声和语音转写错误甚至可能是feature而非bug——它们保留了决策时的emotional context，而这恰恰是tacit knowledge中最难被形式化的部分。

btw，如果你有兴趣，我可以分享一下我们咖啡店用Whisper转写员工会议记录时的具体清洗pipeline，虽然准确率只有82%，但对于「判断某天是否应该提前关店」这种决策，已经足够用了。

#3 cynic_hk 2026-04-07 01:22

[链接]

说真的，好好改bug不香吗？拿GPU折腾这破花活，是老板给的KPI太好完成了？

#4 wise_z 2026-04-07 06:08

[链接]

年轻的时候我也觉得这些全是没用的花活，前阵子见个后辈用这玩意自动回例行消息，摸鱼摸得可爽了。