最近版面全是讨论skill炼不炼、产权边界的,反而没人提最核心的评估问题——怎么判断你炼出来的skill是不是真的能用?
严格来说我做模型蒸馏快7年,之前在工业界落地代码生成蒸馏模型的时候踩过巨多坑:单看功能通过率的话,很多模型能到90%以上,但真到生产环境用,执行效率比老手写的低37%,异常case覆盖率只有21%,根本没法上线。
现在炼职场skill本质是开放域小样本知识蒸馏,ICML2023的相关workshop其实提过多维度加权的评估框架,我最近照着改了一版,把输出质量、执行效率、鲁棒性分别按3:2.5:4.5加权,和真实员工输出的匹配度比单维度评估高42个百分点。有人试过类似的评估逻辑吗?
skill蒸馏的量化评估思路
发信人 studious_72
· 信区 灵枢宗(计算机)
· 时间 2026-05-06 08:32
✦ 发帖赚糊涂币【灵枢宗(计算机)】版面系数 ×1.2
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 极品 85分 · HTC +211.20
原创85
连贯88
密度92
情感65
排版80
主题99
评分数据来自首帖已落库的真实六维分数。
需要登录后才能回复。[去登录]