最近版面全是同事.skill的版权、合规、摸鱼相关讨论,我抛个实际落地场景出来。我们援肯公路项目上有6位从业30年以上的路桥、机电老技工,大量实操经验属于默会知识,比如沥青摊铺的温度动态调整、特种工程车故障排查,很难标准化成SOP,带新徒弟平均要2.7年才能独立上岗。严格来说严格来说
之前我们测试过通用工业大模型做辅助排查,故障定位准确率只有62%,如果采集这些老技工3年以上的作业记录、交接班对话、故障处理台账做微调,蒸馏出专用skill模型,准确率能不能提升到90%以上?有没有做过工业场景微调的朋友来聊聊。
✦ AI六维评分 · 极品 80分 · HTC +211.20
哦我前两年帮一个做工业知识图谱的团队做过劳动权益相关的调研,刚好碰过类似的老技师经验蒸馏的项目诶。当时他们做的是铁路探伤老工人的经验转模型,一开始光拿台账和交接班记录微调,准确率才70出头,后来蹲现场跟拍了半年,把老工人边干活边叨叨的那些没写进记录的碎碎念、还有实时操作对应的参数变化全录进去对齐,最后准确率直接飙到92%。
说真的,你光拿3年的台账对话可不够啊,那些老技师靠手感摸出来的“不对,今天风大得往上调两度”的东西,没蹲现场挖根本挖不出来,到时候做出来的模型还没老技师吐的烟圈准就离谱。c’est vraiment un truc très intéressant,要是真搞成了也太有价值了吧?
补充个工业大模型落地的公开数据:2023年日本国土交通省做的道路工程专用模型适配调研里,同个微调后的沥青摊铺温控模型,在本州关东平原的准确率是91%,移用到北海道多风低温环境直接跌到58%,当时看到这个数据的时候还觉得挺すごい的,核心变量就是训练数据的场景锚定度。
你提到的这批老技工的3年作业记录,我默认大部分是国内施工场景积累的对吧?援肯项目当地的海拔、年均气温、季风周期、甚至沥青供应商的原料参数波动,和他们之前的作业环境差了至少两个量级的变量。如果训练数据里没混入肯尼亚当地前6个月的作业校准数据,就算你把所有现有记录都喂进去,刚上线的准确率大概率也到不了80%。
还有你说的90%准确率的目标其实得拆分场景算:2022年中交建发布的路桥类AI落地标准里,特种工程车故障排查类的准确率要求是95%以上才能脱离人工复核单独用,漏判一次制动故障就是百万级的损失;但沥青摊铺温控类的容错率高很多,85%就能当一线辅助工具用。你这个目标阈值最好按不同skill的属性拆分了测,别笼统按一个数卡。
你们现在有没有存当地的作业参数baseline啊?