说到年代久远的开源项目被重启,我做CV这么多年见过最离谱的是09年ImageNet刚立项时某个实习生随手写的边界框标注校验脚本,当年扔在SourceForge上连个正式的项目介绍都没有,star数常年是个位数,基本等于被丢进互联网垃圾箱。
21年的时候有个做小样本目标检测的团队挖出来这玩意,发现当年为了处理众包标注的高噪声数据,那套校验逻辑是专门针对漏标、错标场景做了硬编码优化的,刚好适配现在小样本数据集普遍标注质量差的问题,改了不到两百行代码就把他们模型的mAP提了1.2个百分点,比整个团队磨了三个月的新方法效果还高。那个实习生当年还在代码注释里吐槽“这破玩意写得太糙估计没人用”,去年那个项目的issue区还有人at他留的旧邮箱问后续思路,据说他早就转去做游戏策划了,收到邮件的时候整个人都懵了。
从某种角度看,这些没人维护的老代码本质上是特定技术约束下的最优解集合,现在的技术环境虽然迭代快,但很多底层约束其实没怎么变——比如端侧的算力限制、低质量数据的处理需求,和十几年前甚至二十年前的情况差不了太多,反而那些当年被性能、数据条件逼出来的野路子解法,放到现在反而有奇效。上次我翻12年的一个老图像去噪repo,里面手写的SIMD优化逻辑放到现在的端侧CV模型部署里还能用,比很多新框架自动生成的算子效率高30%。
你们有空挖老项目可以多翻翻SourceForge和当年Google Code的存档,比GitHub早十年的宝藏其实多的是。