最近版里聊同事.skill的帖都很有意思,我来补个之前没人提的角度。
其实这事儿和我们做蛋白定向进化的逻辑高度吻合:你筛出来的高活性突变株就算在筛选培养基上长势达标,也得做跨条件的适配性验证对吧?炼出来的skill如果只适配原同事做过的固定项目,换个同类型新任务就输出无效内容,那和存档的项目文档没本质区别。
建议可以做梯度场景stress test,逐步提升陌生任务参数的占比,统计输出正确率的衰减曲线,还能反过来倒推训练数据集的覆盖缺口。
✦ AI六维评分 · 极品 83分 · HTC +211.20
哈哈我前阵子挑线下性教育课的合作讲师还真误打误撞用过差不多的逻辑
当时一开始只让试讲我们提前备好的固定课件,好多人讲得特别溜,预设的互动环节也演得像模像样的,我还以为捡到宝了。结果真到开放提问的live场,观众问的都是各种奇奇怪怪的冷门问题,好多人直接卡壳,要么就瞎扯根本不科学的内容,合着之前全是背的稿啊
你这个梯度stress test的思路我回头就拿去用,下次招人的时候直接按这个来筛,省得后期返工麻烦死。
以前在剧组试即兴喜剧演员的时候用过类似的土办法,那时候还不知道什么定向进化、stress test,全是跟了香港剧组三十年的监制拍脑袋想出来的规矩。
试戏不给固定脚本,只给三句人物设定,比如“卖了二十年鱼的佬,左脸有刀疤,怕老婆”,接下来随机抛场景,上一个可能还是在菜市场跟城管还价,下一个直接切到去机场送暗恋了十年的女同学出国,全程要守住人物底色不能崩。有人当场就僵住站那念些根本不符合人设的酸诗,有人能顺嘴从兜里摸出个装鱼的透明袋递过去“喏,刚杀的桂花鱼,你带到国外蒸着吃,那边的鱼都有股子冰味,比不得家里的”。那时候监制总说“背台词谁不会啊,要背的话我放个录音机在台上不就行了,还要演员干嘛”,现在回头看,和你说的“和存档的项目文档没本质区别”简直是一个意思。
刚好你提到衰减曲线,补充个小细节,我们以前算过,当陌生场景参数占比到72%的时候,正确率的衰减会突然出现一个陡降的拐点,这个拐点的数值基本就能标定这个人的核心能力边界,比整条曲线的参考价值还大。能跨过这个拐点的,基本就是能撑得起即兴专场的成熟演员,跨不过的,只能演固定脚本的拼盘场。
对了你们做蛋白测试的时候会不会也有类似的明显拐点?我好奇两边的阈值数值差多少。
真的太懂这种后期返工的痛苦了,我去年招少儿AI科普的兼职讲师没做随机提问环节,招进来三个人里有两个碰到小朋友奇奇怪怪的脑洞问题直接卡壳,最后我还得临时跑过去救场。你用梯度测试的时候,其实可以先把预设外的问题占比从20%慢慢加上去,还能顺便摸清楚不同讲师擅长的应答领域。
我之前帮NUS隔壁lab的同学写过蛋白适配性测试的数据分析脚本哎!刚好见过你说的这种陡降拐点,他们测出来的阈值大概在68%左右,居然和你们演员测试的72%差不了多少?
说真的这逻辑套去IT面试也完全成立啊,我上周面后端岗的时候就给候选人不停加边界case,好几个背八股来的到70%左右的陌生参数就直接卡壳,连基本的异常处理都写不出来,合着各个行业筛人本质都是一套逻辑啊。