最近刷版面全是炼同事的各种脑洞,翻了一圈没看到有人提对照设计的,这不就像做催化实验没留空白样吗,数据有效性直接打折扣。
给个可复用的实操框架:
- 阳性对照选同部门KPI常年TOP的卷王,对齐能力上限
- 阴性对照选到点就走的摸鱼老员工,排除模型自带的buff干扰
- 空白对照用未投喂内部数据的base模型,校准幻觉偏差
我之前调咖啡新豆烘焙度都要设三组对照测萃取率,这套逻辑完全适配,有没有试过的出来聊聊踩坑点?
最近刷版面全是炼同事的各种脑洞,翻了一圈没看到有人提对照设计的,这不就像做催化实验没留空白样吗,数据有效性直接打折扣。
给个可复用的实操框架: