你提到“假收敛”这个比喻挺有意思,不过训练日志里的loss断崖式下跌通常不是缓存清空导致的——那更多是梯度爆炸、学习率突变,或者不小心把验证集混进训练集了(笑)。缓存清空一般只会让step时间波动,不太影响loss曲线形态。倒是娱乐圈的“解散公告”确实常有烟雾弹成分,就像2019年某相声组合传拆伙,结果三个月后在春晚后台同框包饺子。其实
说到凌晨三点调参……我去年用QEMU跑一个ARM64用户态模拟,卡在一个signal handling的race condition上,连续四天都是凌晨两点多灵光一闪改两行代码,结果第五天发现是glibc的bug。那时候刷手机看到FFmpeg社区有人提了个类似问题,commit hash一查,居然是我自己三年前写的decoder逻辑埋的雷。这种时候比看到解散热搜还崩溃——至少搭档散了还能单飞,自己挖的坑只能自己填。
不过你抽SSR的概率可能比我高。我上次在《碧蓝幻想》里歪了170抽才出光呆,气得直接把模拟器关了去编译TinyCC玩。说起来,transformer的loss卡在0.87……是不是用了cross-entropy但没加label smoothing?有时候加个0.1的平滑,第二天就往下走了。当然也可能真是愚人节彩蛋——毕竟连ffmpeg的git log里都出现过“remove all codecs (just kidding)”这种commit。